0% ont trouvé ce document utile (0 vote)
45 vues60 pages

Math160 1

Transféré par

gracialorenzo04
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
45 vues60 pages

Math160 1

Transféré par

gracialorenzo04
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Année scolaire : 2019-2020, Mousson Université de Lomé

**********
Faculté des Sciences
**********
BPA-BPV_GSC

01/02/2020

Statistique descriptive 1 (MTH 160)

Chargé du cours :
ISE AGBOBLY-ATAYI Ayikoué Honoré
ISE KOKOLOKO Essopha
CHAPITRE1 : GENERALITES
1-Introduction
1.1- Définition et historique
L’origine du mot « statistique » remonte au latin classique status (état) qui, par une série
d’évolutions successives, aboutit au français statistique, attesté pour la première fois en 1771.

De façon un peu grossière, on peut distinguer trois phases essentielles dans l’évolution de la
statistique.

➢ Depuis l’antiquité et jusqu’à la fin du 19ième siècle, la statistique est restée


principalement un ensemble de techniques de dénombrement.

➢ Entre la fin du 19ème siècle et les années 1960, s’est construit, notamment à la suite de
l’école anglaise (K. Pearson, W. Gosset (Student), R. Fisher, J. Neyman.. .), la statistique
mathématique (ou statistique inférentielle).

➢ Depuis les années 1960, avec le développement des outils informatiques et graphiques,
la statistique, et surtout la statistique descriptive multidimensionnelle, a connu une expansion
considérable.

La statistique est définie aujourd’hui comme étant un ensemble de méthodes visant à collecter
les données, à les traiter et à les analyser en vue de prendre des décisions.

Les méthodes en question relèvent le plus souvent des mathématiques et font largement appel
à l’outil informatique pour leur mise en œuvre.

Exemple 1.1 :

Si à la suite d’une analyse statistique, le Directeur d’une société constate que le retard de ses
employés est dû au manque de moyens de déplacement, il peut par exemple augmenter les
salaires ou leur accorder des prêts afin que chacun puisse disposer d’un moyen de
déplacement.

Le terme « statistique » peut aussi désigner un ensemble de données numériques concernant


une catégorie de faits.

Exemple 1.2 :

Les statistiques sur le chômage, les statistiques sur la réussite des étudiants de la FDS, les
statistiques sur la santé, les statistique du commerce extérieur

De manière approximative, il est possible de classer les méthodes statistiques en deux groupes
dont les méthodes descriptives (statistique descriptive) et les méthodes inférentielles
(statistique mathématique ou inférentielle).

a. La statistique descriptive. On regroupe sous ce terme les méthodes dont l’objectif


principal est la description des informations ou des données étudiées ; cette description des
données se fait à travers leur présentation (la plus synthétique possible), leur représentation
graphique, et le calcul de résumés numériques. Elle donne un aperçu rapide ou une synthèse
de la situation et permet de prendre rapidement des décisions. C’est essentiellement à ces
méthodes qu’est consacré ce cours.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 1


b. La statistique mathématique ou inférentielle. Ce terme regroupe les méthodes dont
l’objectif principal est de préciser un phénomène sur une population globale, à partir de son
observation sur une partie restreinte de cette population (échantillon) d’une certaine manière,
il s’agit donc d’induire (ou encore d’inférer) du particulier au général. Le plus souvent, ce
passage ne pourra se faire que moyennant des hypothèses de type probabiliste.

D’un point de vue méthodologique, la statistique descriptive précède en général la statistique


inférentielle dans une démarche de traitement de données : les deux aspects de la statistique se
complètent bien plus qu’ils ne s’opposent.

NB : le cours de statistique dont il s’agit ici se limitera à la statistique descriptive.

1.2- Domaines d’application


Le champ d'application de la statistique est très large et intéresse aussi bien les acteurs
économiques des administrations publiques et privées que les chercheurs, enseignants, etc…
La production des données statistiques et leur utilisation, souvent à la base de décisions
importantes, accentuent le caractère à la fois rigoureux et fascinant du métier de statisticien.

Posséder une compétence reconnue en statistique permet de travailler dans la plupart des
secteurs et des domaines d’activités et de recherche. Il peut s’agir des domaines comme: les
sciences sociales, la politique, le commerce, la démographie, l’environnement, la santé, le
marketing, la finance, la télécommunication, l’informatique…

1.3- Rôle de la statistique


La statistique est directement liée à l’action ou à la préparation de l’action. Elle joue aussi un
rôle de calmant puisqu’elle donne l’impression de comprendre la réalité complexe ou de
prévoir le futur. C’est aussi un outil de publicité ou d’intoxication. Enfin, elle reste une arme
puissante pour impressionner ou dissuader ses adversaires

2- vocabulaire de la statistique
Etant une discipline, la statistique possède aussi un vocabulaire que tout apprenant doit
maitriser. Il s’agit des termes ou « mot » que l’on finit par maitriser facilement à force de les
utiliser.

Population Ω (ou population statistique ou population cible): ensemble (au sens


mathématique du terme) concerné par une étude statistique. On parle parfois de champ de
l’étude.

Exemple 1.3 :

1. Une étude, dans un village, portant sur le nombre d'enfants à charge par ménage aurait
pour population statistique est l’ensemble des ménages de ce village.

2. Si on veut connaître le régime de matrimonial préféré par les couples au Togo, la


population statistique ou population cible serait les registres de mariage.

Individu w ε Ω (ou unité statistique): tout élément de la population. Exemple : pour notre
étude sur le nombre d’enfants à charge par ménage, l’individu ou l’unité statistique est le
ménage.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 2


Échantillon : sous ensemble de la population sur lequel sont effectivement réalisées les
observations.

Exemple 1.4 :

Supposons que l’étude portant sur le nombre d'enfants à charge par ménage est faite dans une
ville importante, il serait impossible d’interviewer tous les ménages. Dans ce cas, seulement
une partie de l’ensemble des ménages sera interviewée.

Taille de l’échantillon n: cardinal du sous-ensemble correspondant. Exemple : Toujours dans


le cas de l’étude portant sur le nombre d’enfants à charge par ménage. Si on suppose qu’on a
interrogé seulement 50 ménages, alors la taille de l’échantillon est 50.

Enquête (statistique) : opération consistant à observer (ou mesurer, ou questionner)


l’ensemble des individus de la population ou d’un échantillon.

Recensement : enquête dans laquelle l’échantillon observé est la population toute entière
(enquête exhaustive).

Sondage : enquête dans laquelle l’échantillon observé est un sous-ensemble strict de la


population (enquête non exhaustive).

Caractères et modalités

Le caractère est une qualité attachée à la population étudiée. Il est commun à tous les
individus de la population. Le terme variable est aussi souvent utilisé pour désigner un
caractère.

La modalité désigne les différentes valeurs que prend le caractère. C’est un critère qui permet
de classer les individus. L’ensemble des modalités d’un caractère doit être exhaustif ; c'est-à-
dire qu’il faut disposer d’une liste complète. Tous les cas de figure doivent être prévus et
incompatibles et chaque individu doit se placer dans une seule modalité.

Exemple 1.5:

Etat Série de l’enseignement


Caractères Sexe
matrimonial général au Togo
- Masculin -Marié - A4
Modalités - Féminin -Célibataire - C4
-Veuf -D
-Divorcé

Les caractères sont classés en deux grands types : caractères qualitatifs et caractères
quantitatifs

➢ Caractères qualitatifs

Un caractère est dit qualitatif si ses modalités ne sont pas mesurables. Les modalités, dans ce
cas, peuvent être constatées ou repérées par un nom ou un code. Ce type de caractère est
subdivisé en deux catégories dont le caractère nominal et le caractère ordinal.

Exemple 1.6:

Le sexe, la nationalité, le niveau d’instruction, le milieu de résidence.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 3


➢ Caractères quantitatifs

Un caractère est dit quantitatif si ses modalités sont mesurables. Ce nombre est appelé
variable aléatoire. Les modalités d’une variable quantitative sont les différentes valeurs
possibles de la variable. Il existe deux catégories de variables quantitatives : les variables
discrètes et les variables continues.

Exemple 1.7:

La note en français au BAC, l’âge, le poids, la taille, la densité, etc.

On dit qu’une variable quantitative est discrète lorsque ses valeurs possibles sont isolées.
Exemple 1.8 :

L’effectif annuel des étudiants de la FDS de 2000 à 2013, le nombre de tête du rat, etc.

On dit qu’une variable quantitative est continue lorsqu’elle peut prendre n’importe quelle
valeur d’un intervalle donné de l’ensemble R des nombres réels.

Exemple 1.9 : la densité, le poids, la taille, le revenu.

3- différentes phases de la démarche statistique.


La démarche statistique pour aboutir à un résultat comporte, de façon sommaire :

✓ la phase de conception (définir la population statistique, faire l’échantillonnage,


répertorier les différents caractères, concevoir un questionnaire)
✓ la collecte des données (collecter les données auprès des individus)
✓ Saisir les données
✓ l’apurement (Vérifier les contrôles et traiter les cas particuliers)
✓ le traitement des données (faire le dépouillement pour produire des tableaux et des
graphiques)
✓ l’analyse des résultats
✓ la modélisation (Recherche de relations mathématiques entre les caractères ou
variables).

4- Quelques logiciels statistiques


Les études statistiques sont souvent complexes. C’est pour cela que l’on fait recourt à des
logiciels pour faciliter le dépouillement des données. De nos jours, il existe donc une panoplie
de logiciels qui permettent de faciliter la saisie et le traitement des données statistiques. Les
plus répandus sont : Excel, Access, EpiInfo, EpiData, SPSS, STATA, Eviews, STATISTICA,
SPAD, etc.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 4


CHAPITRE 2 : LES TABLEAUX STATISTIQUES ET LA
REPRESENTATION GRAPHIQUE DES DONNEES
Après la collecte et la saisie des données, l’étape suivante est le dépouillement qui consiste à
élaborer à partir des différentes variables, des tableaux de répartition ou de distribution et des
graphiques. Ces tableaux et graphiques sont des outils de base pour l’analyse des informations
collectées. Dans cette procédure, le plus important est d’identifier les variables et leurs
modalités et de déterminer pour chaque modalité, le nombre d’individus.

2.1- Observations individuelles.


Soit une population constituée de n individus et étudiée selon une seule variable X. On
numérote les individus de la population de 1 à n. L’individu numéro i, i = 1,2, …, n a la
valeur ou modalité X i de la variable X. Ainsi l’observation de la population nous permet de
disposer de n valeurs ou modalités X1 , X 2 , X3 ,...,X n . Ces n valeurs ou modalités sont appelées
observations individuelles de la population selon le variable X. Dans le cas de variable
qualitative, ces modalités peuvent être représentées par des nombres sans que les opérations
algébriques usuelles aient un quelconque sens.

Exemple 2.1 :

Dans le cadre d’une étude portant sur le nombre de plants infectés sur chacune des 50
parcelles concernées, les résultats obtenus sont notés comme suit.

2 3 0 1 0 1 4 2 2 0 1 6 2 3 0 4 3 2 2 6 1 1 0 2 1
1 0 3 2 1 3 3 1 4 0 4 2 1 6 0 3 4 2 1 2 4 1 1 1 2

Les observations individuelles sont souvent présentées sous forme de série.

2.2- Présentation usuelle des tableaux statistiques


Les tableaux statistiques sont une forme courante de présentation condensée de données et
sont des produits dont l’usage est répandu dans les publications de toutes sortes. Ce sont
surtout les services statistiques de certains organismes publics et privés qui élaborent ces
tableaux lors de leurs travaux statistiques courants et/ou à l’occasion d’études et recherches.

La présentation et l’usage des tableaux statistiques obéissent à des règles usuelles qui
indiquent leur précision, facilitent leur utilisation et assurent la confiance en l’information
qu’ils contiennent. Pour cela les indications suivantes sont toujours recommandées et doivent
accompagnées un tableau statistique :

➢ le titre du tableau qui indique la population et la variable étudiée ;

➢ l’unité de mesure de variable ;

➢ la source : c’est-à-dire la personne physique ou morale qui a façonné le tableau ou a


donné l’information nécessaire pour l’établir ;

➢ les observations, remarques ou compléments permettant d’éviter de fausses


interprétations ou une mauvaise utilisation.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 5


2.2.1- Tableaux unidimensionnels.
Soit X une variable présentant k modalités notées : A1 , A 2 , A3 ,..., A k k≥2. Dans ce cas la
valeur X i de la variable pour l’individu numéro i est égale à l’une des modalités
A1 , A 2 , A3 ,..., A k . Notons n i le nombre d’individus de la population présentant la modalité A i .

Définition de fréquence

On appelle fréquence de la modalité A i , noté f i , le nombre :

n
f = ni i = 1, 2, , k.
i

Le nombre fi est par définition une proportion d’individus. On a : 0  f i  1. . Puisque nous


considérons seulement les modalités effectivement présentent dans la population, le cas limite
où f i =0 n’a pas de signification. De même le cas où il n’ya qu’une seule modalité (f i =1) n’est
pas intéressant. D’où 0  f i < 1. 0.

Définition de l’effectif cumulé.

L’effectif cumulé, noté Ni, est le nombre d’individus de la population ayant soit la modalité
A1 ou la modalité A 2 , ou la modalité A3 , ou la modalité....., ou la modalité Ai

N1 = n1; N 2 = n1 + n 2 ; N i = n1 + n 2 +  + n i .

Définition de la fréquence cumulée.

La fréquence cumulée, noté Fi , est la proportion de la population ayant

soit la modalité A1 ou la modalité A 2 , ou la modalité A3 , ou la modalité....., ou la modalité A i


Fi = N i / n Ce qui donne : Fi = f1 + f 2 +  + f i .

[Link]- Tableau statistique pour une variable qualitative.

En considérant les définitions précédentes, on peut alors résumer les données d’une variable
qualitative dans un tableau de la façon suivante :

Tableau 2.1: Répartition des individus enquêtés selon la variable X.


X Effectif fréquence Fréquence cumulé
A1 n1 f1 =n1/n F1 = N1 / n
A2 n2 f 2 =n 2 /n F2 = N 2 / n
.
Ai ni fi =n i /n Fi = N i / n
.
Ak nk f k =n k /n 1
Total N 1

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 6


Exemple 2.1 :

Une enquête faite auprès d’un groupe d’étudiant a donné les résultats consignés dans le
tableau 2.1 en annexe. Donner la répartition de ce groupe d’étudiants selon la région
d’obtention du BAC.

Tableau 2.2 : Tableau de comptage

Fréquence Fréquence
Région d’obtention du BAC Comptage Effectif
(%) cumulée(%)
Lomé IIIIIIIII 9 18 18
Maritime IIIIIIII 8 16 34
Plateaux IIIIIIIIIII 11 22 56
Centrale IIIIIII 7 14 70
Kara IIIIIII 7 14 84
Savanes IIIIIIII 8 16 100
Total 50 100

Avec les logiciels, la colonne comptage n’apparait pas. En réalité cette colonne n’intervient
pas dans l’interprétation des résultats. Elle permet seulement de ne pas faire d’erreur lors de
dépouillement manuel. D’ou

Tableau 2.3 : répartition étudiants enquêtés selon la région d’obtention du BAC


Région d’obtention du BAC Effectif Fréquence(%) Fréquence cumulée(%)
Lomé 9 18 18
Maritime 8 16 34
Plateaux 11 22 56
Centrale 7 14 70
Kara 7 14 84
Savanes 8 16 100
Total 50 100

Exemple 2.2 : interprétation

Sur les 50 étudiants enquêtés, 22% ont obtenu leur BAC dans la région des Plateaux.

[Link]- Tableau statistique pour une variable quantitative discrète.

Le tableau statistique pour une variable quantitative discrète est le même que pour celui d’une
variable qualitative. La seule différence est qu’au niveau de la variable discrète on a des
valeurs numériques isolées. Ainsi le tableau formalisé résumant les données d’une variable
quantitative discrète se présente comme suit.

Tableau 2.4 : Répartition des individus enquêtés selon la variable X.


X effectif fréquence Fréquence cumulé
x1 n1 f1 =n1/n F1 = N1 / n
x2 n2 f 2 =n 2 /n F2 = N 2 / n

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 7


.
xi ni fi =n i /n Fi = N i / n
.
xk nk f k =n k /n 1
Total n

Exemple 2.3:

Tableau 2.5 : répartition des étudiants enquêtés selon le nombre d’années passé au Lycée
Nombre d’années passé au Lycée Effectif Fréquence(%) Fréquence cumulée(%)
3 31 62 62
4 15 30 92
5 4 8 100
Total 50 100

Exemple 2.4 : interprétation :

La plupart (62%) des étudiants du groupé qui a été enquêté ont affirmé qu’ils ont passé 3 ans au
Lycée. Ce tableau indique également que 92% de ces étudiants ont passé au plus 4 ans au Lycée.

Activité 2.2:

Donner la répartition des 50 parcelles visitées selon le nombre de plants infectés. Quelle est la
proportion des parcelles ayant au plus 3 plants infectés ? Quelle est la proportion de parcelles
ayant 4 plants infectés ?

[Link]- Tableau statistique pour une variable quantitative continue.

La répartition des individus dans le cas des variables quantitatives continues se fait sous
forme d’intervalles à amplitudes égales ou inégales. Il est donc important de connaître les
amplitudes de ces intervalles ou classes. Le nombre de classes est généralement inférieur à 10.

➢ Détermination des classes.

• Amplitudes conventionnelles.

Il existe des cas naturels de variables continues où l’amplitude est intuitivement connue ou
imposée par l’étude. On peut citer le cas de la distribution d’individus par âge où l’on retient
traditionnellement des amplitudes de 5 ans ou 10 ans.

Dans ce cas, si on désigne par X la variable quantitative étudiée et E l’amplitude imposée, on


formera les intervalles comme suit :

 L1, L2  ;  L2 , L3  ;  L3 , L4  ;  L4 , L5  ; ...;  Lk −1, Lk 


Avec

L1 = X min et L2 = L1 + E ; L3 = L2 + E ; L4 = L3 + E; L5 = L4 + E ; ...; Lk = Lk −1 + E

• cas où le nombre de classes est connu.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 8


Ici on connait le nombre de classes que l’on désire repartir les individus selon la variable
étudiée. Si on suppose que ce nombre de classe est m, alors l’amplitude E est déterminé
X − X min
comme suit : E = max
m

Où X min est la valeur minimale observée et X max la valeur maximale observée.

Les classes sont alors déterminées comme suit :

L1 = X min et L2 = L1 + E ; L3 = L2 + E ; L4 = L3 + E; L5 = L4 + E ; ...; Lk = Lk −1 + E

• cas où le nombre de classe n’est pas connu

X max − X min
Dans ce cas l’amplitude E est déterminée par la formule de STURGES : E =
1 + 3,3log (n)
où n est le nombre total d’individus et log le logarithme décimal.
Dans ce cas le dénominateur de cette formule est interprété comme étant le nombre de classe
Le tableau statistique pour une variable continue se présente alors comme suit.
Tableau 2.5 : Répartition des individus enquêtés selon la variable X.
X Effectif Fréquence Fréquence cumulé
 L1 , L2  n1 f1 =n1/n F1 = N1 / n
 L2 , L3  n2 f 2 =n 2 /n F2 = N 2 / n
.
 Li , Li +1 ni fi =n i /n Fi = N i / n
.
 Lk , Lk +1 nk f k =n k /n 1
Total N

Exemple 2.5:

Tableau 2.6 : répartition des étudiants enquêtés selon les dépenses de déplacement journalier
Effectif Fréquence (%) Fréquence cumulée (%)
300 - 500 10 20 20
500 - 700 12 24 44
700 - 900 9 18 62
900 - 1100 8 16 78
1100-1300 7 14 92
1300-1500 4 8 100
Total 50 100

Exemple 2.6 : interprétation

Le tableau indique que la majorité (24%) des étudiants interviewés déboursent un montant de
500 à 700 francs CFA pour leurs déplacements journaliers. Ce tableau indique également que

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 9


plus de 62% des étudiants de ce groupe dépensent au moins 900 FCFA et au plus 1500 CFA
pour leurs déplacements quotidiens.

Activité 2.3 :

En considérant que 17 et 25 ans sont respectivement l’âge de l’étudiant le moins âgé et de


l’étudiant le plus âgé,

1- faire la répartition de ces étudiants enquêtés en 4 classes d’amplitude égale.

2- faire la répartition de ces étudiants en utilisant la formule de STURGES pour la


détermination de l’amplitude de chaque classe.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 10


2 .3- Représentation graphique des distributions à un caractère.
Bien qu’un tableau renferme toutes les informations, il est parfois plus judicieux de les
traduire par des graphiques. Le but est de synthétiser l’information de façon à faire ressortir
d’un seul coup d’œil les principales caractéristiques. Le graphique est un moyen de
découverte, de contrôle et de comparaison.

Un graphique doit être clair et simple. Il doit avoir un titre, une source, une légende et une
unité.

2.2.1- Représentation graphique d’un caractère qualitatif

Pour un caractère qualitatif, on a deux types de graphiques : les diagrammes à secteurs, les
tuyaux d’orgues et les barres.

[Link]- Diagramme circulaire

Sur le diagramme circulaire, chaque modalité est représentée par un secteur circulaire dont
l’angle est proportionnel à son effectif ou sa fréquence. Chaque secteur doit être différentié
des autres par un type de hachure ou par une couleur. L’angle de chaque secteur est obtenu
par la formule

360.n
i = 360. fi = i
n

Exemple 2.14 :

L’évaluation des candidats présents à l’épreuve de statistique descriptive du semestre


harmattan 2012 se présente comme suit :

Tableau 2.15: répartition des candidats présents à l’épreuve de statistique descriptive du


semestre harmattan 2012 selon le résultat

Résultat Effectif Fréquence (%)


Insuffisant 2155 55,10
Passable 592 15,14
Assez bien 575 14,70
Bien 420 10,74
très bien 169 4,32
Total 3911 100

Présentation de cette répartition sous forme de diagramme circulaire

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 11


Graphique 2.1: répartition des candidats présents à l’épreuve de statistique descriptive du
semestre harmattan 2012 selon le résultat

Insuffisant Passable
55,10% 15,14%

Assez bien
14,70%

très bien Bien


4,32% 10,74%

Activité 2.6 :

Faire la répartition, en utilisant le diagramme à secteur, des étudiants interviewés selon la


région d’obtention du BAC.

[Link]- Diagramme en Tuyaux d’orgues

Pour construire le diagramme en tuyaux d’orgues, on représente chaque modalité par un tuyau
dont la hauteur est proportionnelle à l’effectif correspondant ou à la fréquence
correspondante. L’ordre des tuyaux n’a pas de sens sauf peut-être pour les variables
qualitatives ordonnées.

Exemple 2. 15

Graphique 2.2: répartition des candidats présents à l’épreuve de statistique descriptive du


semestre harmattan 2012 selon le résultat

55,10%

15,14% 14,70%
10,74%
4,32%

Insuffisant Passable Assez bien Bien très bien

NB : Evidemment, il n’est pas toujours utile de donner deux représentations graphiques en


même temps pour une variable. Il faut choisir le graphique le mieux adapté. Si le nombre de
modalités de la variable étudiée est faible (moins d’une dizaine) il est souvent préférable
d’utiliser le diagramme circulaire.

2.2.2- Représentation graphique d’une variable quantitative discrète

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 12


Pour illustrer une variable quantitative discrète, le diagramme en bâtons et la courbe
cumulative sont utilisés. Ces deux graphiques sont construits dans un système d’axes
cartésien, ce que l’on ne peut pas faire dans le cas d’une variable qualitative.

[Link]- diagramme en bâtons

C’est une représentation dans un système d’axes cartésien où l’axe des abscisses porte les
différentes valeurs possibles ( x1 , x 2 , x 3 ,..., x k ) de la variable étudiée et les effectifs
( n1 , n 2 , n 3 ,..., n k ) ou les fréquences ( f1 , f 2 , f 3 ,..., f k ) sont portés par l’axe des ordonnées. Le
point ( xi , 0) et le point correspondant ( xi , n i ) sont joints par un segment vertical gras appelé
« bâton »

Exemple 2. 16 :

En reprenant le tableau 2.5, on peut établir la répartition de ces étudiants selon le nombre
d’années passés au Lycée en utilisant le diagramme en bâtons comme l’indique le graphique
2.3 ci-après.

Graphique 2.3: répartition du groupe d’étudiants enquêtés selon le nombre d’années passé
au Lycée

35
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7

Activité 2.7 :

En utilisant le diagramme à bâton, faire la répartition des 50 parcelles visitées dans l’exemple
2.1 selon le nombre de plants infectés.

[Link]- courbe cumulative

C’est la représentation graphique de ce qu’on appelle la fonction cumulative ou fonction de


répartition de la population selon la variable étudiée.

La fonction cumulative, notée F, d’une population étudiée selon une variable quantitative X,
est une fonction réelle qui à toute valeur x, fait correspondre la proportion F(x) des individus
de la population dont la valeur de la variable est inférieure ou égale à x

Cette fonction est définie comme suit :

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 13


0 x<x
1

F1 x  x<x Où
1 2

F2 x  x<x - les x1 , x 2 , x 3 ,..., x k sont des valeurs
2 3
: différentes de la variable étudiée ;
 - les F1 , F2 , F3 ,..., Fk-1 sont des fréquences
:
F(x)=  cumulées.
Fi x  x<x
i i+1
:

:

Fk-1 x  x<x
k-1 k
1 x x
 k

Exemple 2. 17:

En reprenant le tableau 2.5, on peut présenter la répartition de ce groupe d’étudiants selon le


nombre d’années passé au Lycée en utilisant la courbe cumulative comme l’indique le
graphique 2.4 ci-après.

Tableau 2.16: répartition étudiants enquêtés selon le nombre d’années passé au Lycée
Nombre d’années passé au Lycée Effectif Fréquence(%) Fréquence cumulée(%)
3 31 62 62
4 15 30 92
5 4 8 100
Total 50 100

Graphique 2.4: répartition étudiants enquêtés selon le nombre d’années passé au Lycée

1,2

0,8

0,6

0,4

0,2

0
0 1 2 3 4 5 6 7 8

2.2.3- Représentation graphique d’une variable quantitative continue

Pour la variable quantitative continue, on suppose qu’on dispose d’un tableau statistique où
les individus ont été regroupés par classe. Pour illustrer graphiquement une variable
quantitative continue, on utilise souvent l’histogramme et la courbe cumulative.
Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 14
[Link]- Histogramme

Pour la construction de l’histogramme, on distingue deux cas selon l’amplitude des classes:

➢ 1er cas : Amplitudes égales

Dans ce cas l’histogramme est l’ensemble des rectangles ayant pour base les segments
 Li -1 , Li  , i=1, 2,...,k et pour hauteur correspondante les effectifs n i ou les fréquences f i . Les
bornes L i des classes sont portées par l’axe des abscisses.

NB : L’importance relative de chaque classe ou sa fréquence est mesurée par l’aire du


rectangle qui la représente. Dans le cas d’amplitude égale, elle est mesurée par la hauteur du
rectangle auquel elle correspond.

Tableau 2.17: répartition des clients d’une société selon le nombre de commandes

Xi Effectif (ni) Fréquence (%)


1000-1500 4 4
1500-2000 20 20
2000-2500 24 24
2500-3000 28 28
3000-3500 22 22
3500-4000 2 2
Total 100

Graphique 2.5: histogramme

0,3

0,25

0,2

0,15

0,1

0,05

0
0 500 1000 1500 2000 2500 3000 3500 4000 4500

➢ 2ème cas : Amplitudes inégales

En considérant que l’importance de chaque classe est représentée par l’aire du rectangle
auquel elle correspond, on tient compte en même temps de l’effectif et de l’amplitude de

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 15


chaque classe. La construction de l’histogramme dans le cas des amplitudes inégales doit
donc respecter la proportionnalité entre les aires des rectangles et les effectifs. D’où il faut
calculer les fréquences corrigées ou les effectifs corrigés dans ce cas.

- On appelle effectif corrigé de la classe  Li -1, Li  dont l’effectif est n i , le nombre


n
noté n i' de valeur : n ' = i
i L -L
i i-1

On appelle fréquence corrigée de la classe  Li -1, Li  dont la fréquence est f i , le


-
f
nombre noté fi' de valeur : f ' = i avec a =L -L
i a i i i-1
i

L’histogramme est construit avec les fréquences corrigées ou effectifs corrigés.

Exemple 2. 18:

Illustrer les données du tableau 2.8 par un histogramme.

Tableau 2.18: répartition de 250 étudiants selon la dépense moyenne journalière


Effectif Fréquences
200-1000 39 0,156
1000-1500 75 0,3
1500-2000 46 0,184
2000-2500 40 0,16
2500-3000 10 0,04
3000-6000 40 0,16
Total 250

Comme les classes n’ont pas la même amplitude, il faudrait déterminer les fréquences
corrigées. Pour cela nous supposons que lorsque Li -Li-1 = 500 étant la plus petite amplitude,
l’amplitude a i = 1 .

Tableau 2.19: répartition de 250 étudiants selon la dépense moyenne journalière


Amplitude a i Effectif Fréquences Fréquences corrigées
200-1000 1,6 39 0,156 0,10
1000-1500 1 75 0,3 0,30
1500-2000 1 46 0,184 0,18
2000-2500 1 40 0,16 0,16
2500-3000 1 10 0,04 0,04
3000-6000 6 40 0,16 0,03
Total 250

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 16


Graphique 2.6: Histogramme sans correction (faux histogramme)

0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0 1000 2000 3000 4000 5000 6000 7000

Graphique 2.7: Histogramme avec correction de fréquences.

0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0 2000 4000 6000 8000

Activité 2.8 :

Illustrer les données du tableau 2.6 par un histogramme

[Link] Polygone des fréquences

Le polygone des fréquences généralement associé à l’histogramme est la ligne brisée qui joint
les points (c1 -a1 ;0), (c1;f1 ), (c 2 ;f 2 ),..., (c k ;f k ), (c k +a k ;0) .

On remplace ainsi la frontière de l’histogramme constituée par des lignes horizontales et


verticales par une ligne brisée qui entoure approximativement la même aire que l’aire totale
de l’histogramme. Le polygone des fréquences est intéressant quand le nombre de classes est
grand et on obtient un polygone des fréquences se rapprochant d’une courbe qui caractérise la
distribution de la population.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 17


Exemple 2. 19:

En reprenant les données du tableau 2.7 et le graphique 2.5, le poligone de fréquence se


présente comme suit :

Graphique 2.8: Histogramme et polygone de fréquence.

0,3

0,25

0,2

0,15

0,1

0,05

0
0 500 1000 1500 2000 2500 3000 3500 4000 4500

Ordonnées Polygône

[Link]- Courbe cumulative

La courbe cumulative est la représentation graphique de la fonction cumulative F qui a la


même définition dans le cas d’une variable discrète à savoir F(x) est la proportion des
individus de la population ayant la valeur de la variable inférieure ou égale à x. Cependant,
quoique la fonction F est bien définie, les observations groupées ne permettent pas de disposer
que des fréquences cumulées F1 , F2 ,..., Fk et donc on ne connait que les valeurs de F aux
extrémités des intervalles  xi-1 , xi  avec

F( xi ) = Fi ; F( x) = 0, si x  x0 ; F( x) = 1, si xk  x

Ainsi, les valeurs de F, pour des observations groupées, sont inconnues à l’intérieur des
intervalles ouverts  xi-1 , xi  i = 1, 2, …, k.

Par convention, ces valeurs sont alors approximées par interpolation linéaire comme suit :

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 18


0 xx
 0
 x-x
 x - x0 .F x <x  x
 1 0 1 0 1
 x- x
F + 1 .(F -F ) x <x  x
 1 x2 - x1 2 1 1 2

:

:
F(x)= 
 x- x
F +
 i-1 x - x
i-1 .(F -F ) x <x  x
i i-1 i i-1 i-1 i

:

:

 x- x
 Fk-1+ x - x
k-1 .(F -F ) x <x  x
k k-1 k k-1 k-1 k

1 x x
 k

Exemple 2. 20:

Illustrons les données du tableau 2.17 par la courbe cumulative.


Graphique 2.9: courbe cumulative croissante

1,2
1
0,8
0,6
0,4
0,2
0
-0,2 0 500 1000 1500 2000 2500 3000 3500 4000 4500

Activité 2.9 :

Construire la courbe cumulative illustrant les données du tableau 2.6

[Link] Courbe cumulative décroissante

Quelque fois, il est plus expressif de parler de la proportion des individus de la population
dont la valeur de la variable étudiée est supérieure à une limite donnée. Par exemple, quelle
est la proportion des étudiants dont la moyenne dépasse 15 sur 20 ou bien quelle est la

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 19


proportion des ménages ayant plus de 6 enfants. Cela conduit à définir les fréquences
cumulées décroissantes et la courbe cumulative décroissante.

Définition

Soit une population étudiée selon une variable quantitative X, la fonction cumulative
décroissante, notée G, fait correspondre à tout nombre réel x, la proportion G(x) des individus
de la population dot la valeur de la variable est strictement supérieure à x.

Par définition on :

G( x ) + F( x) = 1 pour tout x.

D’où
x- x
G( x) = Gi-1 − x - i-1 x i-1 <x  x i
x .(G i-1 -G i )
i i-1

Graphique 2.10: courbe cumulative décroissante

1,2

0,8

0,6

0,4

0,2

0
0 500 1000 1500 2000 2500 3000 3500 4000 4500

Graphique 2.11: les deux courbes cumulatives dans un repère cartésien décroissante

1,2

0,8

0,6

0,4

0,2

-0,2 0 500 1000 1500 2000 2500 3000 3500 4000 4500

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 20


Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 21
CHAPITRE 3: DESCRIPTION NUMERIQUE D’UNE VARIABLE
STATISTIQUE.

Les informations collectées et disponibles doivent être synthétisées au maximum de manière à


avoir une vue globale sur la population ou l’échantillon étudié. Cela permet aussi de pouvoir
comparer cette population ou échantillon à d’autres. Un premier résumé de cette information
est la construction des tableaux et les graphiques statistiques. Mais ce résumé reste insuffisant
et ces tableaux et graphiques contiennent beaucoup de chiffres.

Il s’agit dans ce chapitre de définir un nombre ou une caractéristique qui résume toute
l’information et qui est précisément, une fonction des observations individuelles, au sens
mathématique. Ces nombres ou caractéristiques qui résument les observations individuelles se
classent en plusieurs types dont :

✓ les caractéristiques de tendance centrale


✓ les caractéristiques de dispersions ou de variation
✓ les caractéristiques de forme
✓ les caractéristiques de concentration

3.1- Caractéristiques de tendance centrale


La caractéristique de la tendance centrale d’une variable statistique est une valeur qui permet
de résumer globalement toutes les valeurs prises par cette variable. Comme tout, la valeur de
la tendance centrale doit être proche des observations individuelles qui sont une description
détaillée de l’échantillon ou de la population. Elle doit satisfaire également les conditions
suivantes, appelées conditions de YULE :

1. être bien définie en fonction des observations ;


2. tenir compte de toutes les observations ;
3. être simple à calculer ;
4. avoir une signification concrète ;
5. se prêter au calcul algébrique ;
6. être peu sensible aux fluctuations d’échantillonnage.

Les valeurs de la tendance centrale sont la moyenne, la médiane, le mode et les quantiles.

3.1.1- Moyenne
C’est l’une des caractéristiques les plus utilisées en statistique. Elle peut remplacer chaque
valeur de la variable étudiée. Il existe deux types de moyennes : la moyenne simple et la
moyenne pondérée. La moyenne simple est calculée à partir des données non regroupées et la
moyenne pondérée est obtenue à l’aide d’un regroupement. Pour chaque type, on calcule
généralement la moyenne arithmétique, la moyenne géométrique, la moyenne harmonique et
la moyenne quadratique.
[Link]- Définition

Soit un échantillon de taille n étudié selon la variable X. Après la collecte des données sur cet
échantillon on disposera alors de n observations individuelles ( X1 , X 2 ,..., X n ) et la moyenne
s’obtient à partir de la formule comme l’indique le tableau suivant :

Tableau 3.1:
Moyenne simple Moyenne pondérée
1 n 1 k
Moyenne X=  Xi X=  n i Xi
arithmétique n i=1 n i=1
G= n X1X2 ......X n = ( X1X 2 ......X n ) ( )
Moyenne 1/n 1/n
G= n X1n1 X n2 2 ......X nk l = X1n1 X n2 2 ......X nkl
géométrique
n n
Moyenne H= n
H= k
1 ni
harmonique X
i=1

i=1 X i
i

1 n 2 1 k
 Xi  n i Xi2
Moyenne
Q= Q=
quadratique n i=1 n i=1

k est le nombre de valeurs différentes de la variable dans le cas d’une variable discrète ou le nombre
de classes s’il s’agit d’une variable continue et ni le nombre de fois que X i a été observé. On a
l
n =  ni
i=1
NB :

1. Dans le cas d’une variable continue, X i dans la formule de la moyenne est remplacé par
C i qui est le centre de la classe i.

2. La forme générale de la moyenne est :

1 n a
Ma = a X
n i=1 i

Pour obtenir les différentes formules des moyennes décrites dans le tableau 3.1, il suffit de remplacer
le paramètre a par les différentes comme l’indique le tableau 3.2. Il faudrait se rappeler que lorsque a
est égal à zéro, il s’agira de déterminer la limite de Ma lorsque a tend vers zéro.

Tableau 3.2:

a -1 0 1 2
Moyenne harmonique Géométrique arithmétique quadratique
Activité 3.1:

Tableau 3.3:

15,9 10,3 15,5 15,8 18,5 18,2 12,2 12,6 15,6 12,7
12,7 10,6 12,9 12,5 10,6 18,3 18,7 18 12,4 10

Calculer les moyennes arithmétique, géométrique, quadratique et harmonique. Que constatez-vous ?

Tableau 3.4:

Moyenne arithmétique 14,20


Moyenne géométrique 13,89
Moyenne harmonique 13,60
Moyenne quadratique 14,50

[Link]- Moyenne arithmétique

C’est la formule la plus utilisée. Si aucune précision n’est faite alors pour déterminer la moyenne
d’un caractère, on utilise en général, la formule de la moyenne arithmétique.

Exemple 3.1 :

Un responsable du ministère de l’éducation a interviewé 20 étudiants sur le nombre d’années passé


au Lycée. Les réponses de chacun des 20 étudiants sont les suivantes :

4 3 5 3 5 4 3 4 4 5 5 4 4 3 3 4 3 4 5 5

Déterminer le nombre moyen d’année passé au Lycée pour les 20 étudiants interviewés.

Solution

1 n
• Moyenne simple X=  Xi
n i=1

4+3+5+3+5+4+3+4+4+5+5+4+4+3+3+4+3+4+5+5
X= =4
20

1 k
• Moyenne simple X=  n i Xi
n i=1

6x3+8x4+6x5
X= =4
20

Exemple 3.2

Calculer la moyenne arithmétique pour les ouvriers d’une usine dont le salaire (en millier de francs
CFA) est réparti comme suit :

24

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Tableau 3.5:

Salaire en millier Effectif


80-100 22
100-120 30
120-140 45
140-160 18
160-180 10
Total 125

Solution

Ici la formule adaptée est la formule de la moyenne pondérée car les données sont déjà regroupées.

1 k
X=  n i Xi
n i=1

On constate que les X i (salaires individuel) ne sont pas donnés. Seuls les intervalles de salaire sont
donnés. Par exemple selon le tableau 3.5, on sait 22 ouvriers de cette usine ont un salaire compris
entre 80 et 100 mille.

Dans ce cas on remplace les X i par les C i (centres des classes). D’où le tableau 3.6 suivant :

Tableau 3.6:

Classes Effectif (ni) Centre (Ci) : Xi ni*Ci


80-100 22 90 1980
100-120 30 110 3300
120-140 45 130 5850
140-160 18 150 2700
160-180 10 170 1700
Total 125 - 124,24
1 k
X=  ni X i =124,24. Ceci signifie qu’en moyenne chaque ouvrier gagne 124240.
n i =1

Propriétés de la moyenne arithmétique

La moyenne arithmétique possède des propriétés suivantes :

P1 : La somme des écarts des valeurs de la variable par rapport à la moyenne arithmétique est nulle.
n
Cette propriété se traduit par la formule suivante :  (X -X)=0
i=1
i

P2 : Si on effectue le changement de variable X ' =αX+β , la moyenne subit le même changement,


c'est-à-dire X ' =  X +  .

P3 : Si X et Y sont deux variables statistiques alors : X+Y=X+Y

25

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


P4 : La somme des carrés des écarts par rapport à un nombre quelconque u est égale à la sommes des
carrés des écarts par rapport à la moyenne ajouté à n fois le carré de l’écart entre la moyenne et le
n n
nombre u.  (Xi -u)2 = (Xi -X)2 + N(X-u)2
i=1 i=1

P5 : La moyenne arithmétique rend minimale la somme des carrés des écarts par rapport à u (u un
n n
réel quelconque): s(u)= (Xi -u)2 . C'est-à-dire que pour tout nombre réel, s(u)> (Xi - X )2 . Cette
i=1 i=1
propriété signifie que si on prend comme distance totale entre le nombre u et les
valeurs X1 , X 2 ,..., X n , la sommes des carrés des écarts s(u) , la moyenne est la plus proche avec cette
distance.

P6 : La moyenne d’un mélange de deux populations étudiées selon le même caractère X, est égale à
la moyenne pondérée par leurs tailles de leurs moyennes. C'est-à-dire

n1 X1 +n 2 X 2
X=
n

Activité 3.1 :

En reprenant les données du tableau 3.5, répondre aux questions suivantes.

1- On vous demande de calculer la moyenne dans les cas suivants :

a. Le Directeur de la société décide d’augmenter les salaires de 2550.


b. Le Directeur de la société décide d’augmenter les salaires de 3%.
c. En plus de l’augmentation de 3%, le Directeur de la société décide d’accorder un surplus de
2550.

2- Le Directeur veut ramener le salaire moyen à 130000. Proposer lui deux solutions possibles.
Expliciter clairement ces propositions.

[Link]- Moyenne géométrique

La moyenne géométrique est la formule utilisée pour le calcul du taux d’accroissement moyen d’une
grandeur entre deux instants. Pour le voir, supposons donnée une série d’observations temporelles :
y0 , y1, y 2 ,..., y t ,...., yT où t désigne le temps. Pour des séries économiques, t désigne par exemple le
mois, le trimestre, le semestre, l’année, etc. La grandeur subit une variation entre deux instants t et t’
( t  t ' ), pouvant être mesurée par son accroissement relatif ou taux d’accroissement r égal à :
t ,t'

y −y
r = t' t
t ,t ' yt

De cette formule, on peut écrire : y = (1+ r )y (3.1)


t' t,t ' t

Si la grandeur y varie entre t = 0 et t = T, on aura d’après la formule (3.1):


26

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


y = (1 + r ) y
1 0,1 0
y = (1 + r ) y
2 1,2 1
: y
 (1 + r0,1)(1 + r1,2 )...(1 + rt −1,t )...(1 + rT −1,T ) = T ( 3.2)
yt = (1 + rt −1,t ) yt −1 y0
:
yT = (1 + rT −1,T ) yT −1

Le taux d’accroissement moyen de la grandeur y entre les instants t = 0 et t = T, noté r, est le taux
constant qui aurait donné la même variation de y entre ces deux instants.

Calcul de r

y1 = (1 + r ) y0
y2 = (1 + r ) y1
: y
 (1 + r )T = T ( 3.3 )
yt = (1 + r ) yt −1 y0
:
yT = (1 + r ) yT −1

D’après les formules (3.2) et (3.3), on a :

(1 + r )T = (1 + r0,1)(1 + r1,2 )...(1 + rt −1,t )...(1 + rT −1,T )


En posant
1 + rt −1,t = qt t =1, 2,..., T
On aura

r = T q q ...q −1 t =1, 2,..., T


1 2 T

Les développements ci-dessus sont surtout destinés à faire éviter aux étudiants une erreur souvent
commise, due à l’ignorance que le taux d’accroissement moyen n’est pas la moyenne arithmétique
des taux d’accroissement relatifs. Cependant, quand les taux d’accroissement relatifs sont faibles par
rapport à l’unité, le taux d’accroissement moyen peut être approximé valablement par la moyenne
arithmétique des taux d’accroissement relatifs.

Exemple 3.3
Déterminer le taux d’accroissement moyen relatif aux taux d’accroissement du tableau suivant.

Tableau 3.7:
27

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


date t Taux d’accroissement (%)
31.12.06 0 -
31.12.07 1 5,08
31.12.08 2 9,41
31.12.09 3 12,09
31.12.10 4 14,52
31.12.11 5 13,41

[Link]- Moyenne harmonique

Exemple 3.4 :

Une petite usine abrite 2 machines. La première machine a produit 500 pièces à la vitesse de 100
pièces par heure. Une seconde machine a produit 300 pièces à la vitesse de 60 pièces par heure.
Calculer la vitesse moyenne (exprimée en nombre de pièces par heure) de production dans l'usine.

Solution

On sait que

nombre total de pièces produites


Vitesse moyenne =
nombre d'heures de production

Le nombre total de pièces produites = le nombre de pièces produites par la première machine
+ nombre de pièces produites par la deuxième machine
= 500 + 300
= 800

Le nombre d'heures production = le nombre d'heure produites pour la première machine


+ le nombre d'heure produites pour la deuxième machineme machine d
500 300
= +
100 60
’où la vitesse moyenne est de :

800
Vitesse moyenne = = 80
500 300
+
100 60

3.1.2- mode ( M 0 )

Le mode d’une variable correspond à la modalité ayant l’effectif le plus élevé. Sa détermination
varie selon que la variable soit discrète ou continue.

Cas des variables discrètes.

Exemple 3. 5:

Le tableau ci-dessous a été obtenu après un dépouillement du nombre de têtes de bœuf disponibles
auprès de 50 éleveurs. Déterminer le mode.

28

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Tableau 3.8:
Nombre de
têtes ni
16 5
18 8
19 10
20 22
21 5

Le mode est 20 têtes. C'est-à-dire que la plupart des éleveurs ont 20 têtes de boeuf.

Cas des variables continue.

Dans ce cas, on détermine d’abord la classe modale ; c'est-à-dire la classe dont l’effectif est le plus
élevé. Ensuite on détermine le mode à l’aide de la formule

(n0 − n1 )
M 0 = L1 + K
(n0 − n1 ) + (n0 − n2 )

✓ L est la borne inférieure de la classe modale ;


1
✓ K est l’amplitude de la classe modale ;
✓ n0 est l’effectif de la classe modale ;
✓ n est l’effectif de la classe qui précède la classe modale ;
1
✓ n2 est l’effectif de la classe qui suit la classe modale.

Si nous posons d1 = n0 − n1 et d 2 = n0 − n2 , la formule devient

d1
M 0 = L1 + K
d1 + d2

Exemple 3. 6:

Déterminer le mode de la variable résumée dans le tableau ci-dessous.

Tableau 3.9:
Salaire en millier Effectif Fréquence (%)
80-100 22 17,60
100-120 30 24,00
120-140 45 36,00
140-160 18 14,40
160-180 10 8,00
Total 125

La classe modale est [120-140[ ; L1=120 ; K=20 ; n0 = 45; n1 = 30; n2 = 18 . On d1= 15 et d2=27

29

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


15
M 0 = 120 + 20. =127,14286. Ce qui veut dire que la majorité des ouvriers de l’usine gagne
15 + 27
environ 127143.

d2
Le mode peut aussi se déterminer par le formule : M 0 = L2 − K . Il suffit de remarquer dans la
d1 + d 2
formule précédente que L2 = L1 + K .

Détermination graphique du mode.

Lorsque la variable étudiée est continue, on peut utiliser son histogramme pour déterminer le mode.

Graphique 3.1

3.1.3- médiane ( M e )

La médiane d’une variable est la valeur de cette variable qui partage l’échantillon en en deux parties
égales. Lorsqu’on dispose d’une série, la médiane est la valeur qui partage cette série, préalablement
classée, en deux séries aux effectifs égaux. Dans la première série, on trouve les valeurs inférieures à
la médiane. Dans la seconde série on trouve les valeurs supérieures à la médiane.

Cas des données non regroupées par classes

Exemple 3.7 :

Les séries suivantes renferment le nombre d’heures de cours suivies par respectivement 5 et 6
étudiants. Déterminer les médianes.

10 0 7 3 4 9
4 10 0 3 7

Cas d’une variable discrète regroupée

Exemple 3.8 :

Déterminer la médiane du tableau 3.10 suivant :

Le procédé est basé sur les effectifs cumulés Ni ou les fréquences cumulés Fi.

30

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Tableau 3.10:
Nombre de
têtes ni fi Fi
16 5 10 10
18 8 16 26
19 10 20 46
20 22 44 90
21 5 10 100
Total 50

La médiane est alors la première modalité pour la laquelle la fréquence cumulée est supérieure ou
égale à 50%. Dans ce cas Me=20 tête de bœufs.

Si l’on a plutôt utilisé les effectifs cumulés alors la médiane est la première modalité pour laquelle
l’effectif cumulé est ou égal à la moitié de la taille de l’échantillon.

Cas d’une variable continue

Dans ce cas, à l’aide d’un regroupement par classes, on peut déterminer la classe médiane puis la
médiane en utilisant la formule suivante :

(50 − F1 )
M e = L1 + K où
fe

✓ L1 est la borne inférieure de la classe médiane


✓ K est l’amplitude de la classe
✓ F1 est la fréquence cumulée de la classe qui précède la classe médiane
✓ fe est la fréquence de la classe médiane.

On peut également déterminer la médiane par la formule :

n 
 − N1 
M e = L1 + K   où
2
ne

✓ n est la taille de l’échantillon ;


✓ N1 est l’effectif cumulé de la classe qui précède la classe médiane

✓ ne l’effectif de la classe médiane

Exemple 3.9 :

Déterminer la médiane du tableau 3.11 suivant :

Tableau 3.11:
Salaire en millier Effectif Fi Fi
80-100 22 17,6 17,6
100-120 30 24,0 41,6
120-140 45 36,0 77,6
140-160 18 14,4 92,0

31

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


160-180 10 8,0 100
Total 125 100 -

La classe médiane est [120-140[ donc L1=120 ; F1=41,6 ; fe=36 et K=20. D’où

50 − 41, 6
M e = 120+20. =124,667 ; ce qui veut dire que 50% des ouvriers ont un salaire inférieur à
36
124667.

On peut également déterminer graphiquement la médiane en utilisant le graphique des fréquences


cumulées.

Graphique 3.2

Me

3.1.4- quantiles
Tout comme la médiane qui divise l’échantillon en deux parties égales, on peut aussi déterminer
trois valeurs qui divisent l’échantillon en quatre parties égales ; 9 valeurs qui divisent l’effectif en 10
parties égales ou 99 valeurs qui divisent l’effectif en 100 parties égales et ainsi de suite.

Il est possible d’obtenir une formule analogue à celle de la médiane. En effet, si nous voulons diviser
notre effectif en p parties égales, il nous suffit de trouver p-1 valeurs correspondant respectivement
aux fréquences cumulées suivantes :

1 2 3 p −1
100% ; 100% ; 100% ; ......; 100% . Ce qui peut être généralisé sous la
p p p p
j
forme 100% ; j = 1; 2;..... ; p − 1 . Par analogie à la formule de la médiane, ceci revient à
p
 j 
100 p − F1 
déterminer les valeurs de la forme : L1 + K  
fe

Ainsi si nous voulons partager l’effectif total en 4 parties, on calculera les 3 valeurs pour p=4 et j=1 ;
2 ; 4. Ces valeurs sont appelées les quartiles et notées Q1, Q2 et Q3 ; respectivement appelées 1er
quartile, 2ème quartile et 3ème quartile.

Q1 = L1 + K
( 25 − F1 ) ; Q2 = L1 + K
(50 − F1 ) ; Q = L1 + K
( 75 − F1 )
3
fe fe fe

32

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


 100 j 
 − F1 
Pour p=10, on parle des déciles notés Dj. Il en existe 9 valeurs. D j = L1 + K   , j=1, …,
10
fe
9.

Pour p=100, on parle des percentiles notés Pj. Il en existe 99 valeurs.


 100 j 
 − F1 
Pj = L1 + K 
100  = L + K ( j − F1 ) , j=1, …, 99.
1
fe fe

Remarque : Les quantiles peuvent être obtenus à l’aide d’un raisonnement avec les effectifs
 j 
 n p − N1 
cumulés. Dans ce cas, la formule générale devient : L1 + K   .
ne

Les étapes du calcul des quantiles.

1- Déterminer p
2- Déterminer la valeur de j
3- Identifier la classe qui contient le quantile. Cette classe est la 1ère pour laquelle la fréquence
j
cumulée est supérieure à 100%
p
4- L1 est la borne inférieure de la classe qui contient le quantile.
5- K est l’amplitude de la classe qui contient le quantile
6- F1 est la fréquence cumulée de la classe qui précède celle qui contient le quantile
7- fe est la fréquence de la classe qui contient le quantile.

Remarque : Me = Q2 = D5 = P50

Activité 3.2 :

Reprenez le tableau 3.11 et déterminer le 1er et le 3ème quartiles ; le 3ème et le 7ème déciles ; le 10ème et
le 75ème percentiles. Donner les interprétations.

3.2- caractéristiques de dispersions ou de variation


Les caractéristiques de dispersion mesurent le degré de variabilité des données statistiques.

3.2.1- étendue
L’étendue d’une variable X est donnée par e = X max − X min . Elle donne une indication sur le
domaine de variation de la distribution mais ne tient pas compte de la répartition des individus sur le
domaine.

3.2.2- L’intervalle interquartile


33

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


L’intervalle interquartile est une mesure de la variation qui n’est pas influencée par les valeurs
extrêmes, contrairement à l’intervalle de variation.

Sa définition est simple : l’intervalle interquartile noté IQ, mesure l’étendue des 50% de valeurs
situées au milieu d’une série de données classées. Il est déterminé par la formule :

IQ = Q3 − Q1

3.2.3- écart absolu moyen.


1 n
On appelle écart absolu moyen par rapport à un réel a, la quantité Ex =  X i − x . C’est la
n i =1
moyenne des écarts des valeurs de la variable en valeur absolue par rapport au réel a.

1 l
Si les données sont regroupées alors on parle d’écart absolu moyen pondéré ( Ex =  ni X i − x ).
n i =1

Dans la pratique le réel x est une caractéristique de tendance centrale. On choisi généralement le
mode, la moyenne ou la médiane. On note alors

1 n 1 n 1 n
EX = 
n i =1
X i − X ; EM 0 =  X i − M 0 ; EM e =  X i − M e . Le plus utilisé est E X
n i =1 n i =1

L’écart absolu moyen a pour intérêt de prendre en compte la répartition des individus. Plus la
population est concentrée autour de x, plus E x est faible. Dans le cas contraire, E x est élevé.

3.2. 4- variance, l’écart type et le coefficient de variation.

3.2. 4.1- variance


2

La variance d’une variable statistique X est définie par  =  ( X i − X ) . Si les données sont
1 n 2
X
n i =1
2

 =  ni ( X i − X ) . La variance de X est aussi notée


1 l 2
regroupées alors la formule devient X
n i =1
Var(X)

On montre aisément que la variance peut encore se mettre sous la forme :

Var ( X ) =  X2 = X 2 − ( X )
1 n 2
 Xi .
2
où X2 =
n i =1

Propriété de la variance

Soit X une variable statistique, a et b deux réels. On a:

Var(X+b) = Var(X) ; Var(aX) = a 2Var ( X ) ; Var(aX+b) = a 2Var ( X )

3.2. 4.2- Ecart-type

34

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


L’écart type est défini par  X = Var ( X )

Propriété de l’écart type

Des propriétés de la variance, on déduit facilement les propriétés suivantes pour l’écart type.

 ( X +b ) =  X  ( aX ) = a  X  ( aX +b ) = a  X

3.2. 4.3- coefficient de variation


X
Le coefficient de variation est la quantité définie par CV = 100% . Il donne le degré
X
d’homogénéité des données.

Lorsque le CV est inférieur à 33%, on conclut que les données sont homogènes.

Activité 3.3 :

On reprend toujours le tableau 3.11.

1- Calculer E X et EMe

2- Déterminer la variance, l’écart type et le CV dans les cas suivant

a. Les conditions salariales n’ont pas changé.


b. Le Directeur de la société décide d’augmenter les salaires de 2550.
c. Le Directeur de la société décide d’augmenter les salaires de 3%.
d. En plus de l’augmentation de 3%, le Directeur de la société décide d’accorder un surplus de
2550.

Activité 3.4

On connaît les salaires mensuels bruts (en milliers de CFA) des employés de la même entreprise, à 5
ans d’intervalle (voir le tableau3.12). On veut savoir si la dispersion des salaires à augmenté.
Tableau 3.12:
Salaires effectif (2005) effectif (2010)
100-200 40 56
200-300 70 118
300-400 80 92
400-500 5 10
500-1000 5 4

3.3- caractéristiques de forme


En statistique, on compare généralement les distributions à la distribution normale centrée et réduite
qui possède de très bonnes propriétés à savoir : X = M e = M 0 = 0 et  X = 1 .

Graphique 3.3

35

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Cette distribution vous sera mieux exposée dans la deuxième partie du cours : Analyse combinatoire
et Probabilité

Une distribution peut donc être soit étalée à gauche ou à droite de la distribution normale centrée et
réduite ou soit plus aplatie ou moins aplatie que la distribution normale centrée et réduite.

Graphique 3.4

Pour faire ces comparaisons, on utilise 2 types de caractéristiques de forme :

- les coefficients de symétrie et

- les coefficients d’aplatissement.

Pour déterminer ces quantités, on utilise les moments.

1 n r
Définition : On appelle moment non centré d’ordre r d’une variable X, la quantité m(r ) =  Xi .
n i =1
1 l
Les moments pondérés non centré sont de la forme m(r ) = 
n i =1
ni X ir

Définition : On appelle moment centré d’ordre r par rapport à x d’une variable X, la


r
1 n
quantité  (r ) =  ( X i − x ) . Les moments pondérés centrés sont de la
n i =1
r
1 l
forme  (r ) =  ni ( X i − x )
n i =1

36

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Dans la pratique x est la moyenne.

Remarque : m(0) =  (0) = 1 ; m(1) = X ;  (1) = 0 ;  (2) =  X2 ; m(2) =  X2 + ( X )


2

Le coefficient de symétrie (SKEWNESS):

Le coefficient de symétrie de FISHER informe sur le degré de symétrie de la distribution. Il est


 (3)
définit par :  1 = 3

✓ Si  1 =0 alors la distribution est normale

✓ Si  1 >0 alors la distribution est étalée vers la droite

✓ Si  1 <0 alors la distribution est étalée vers la gauche

Le coefficient de d’aplatissement (KURTOSIS)

Le coefficient d’aplatissement de FISHER informe sur le degré d’aplatissement de la distribution. Il


est définit par :

 (4)
2 = −3
4

✓ Si  2 =0 alors la distribution est normale

✓ Si  2 >0 alors la distribution est moins aplatie que la normale

✓ Si  2 <0 alors la distribution est plus aplatie que la normale

Activité 3.5 :

Donner la forme de la distribution de la variable résumée dans le tableau 3.11.

3.4- Les caractéristiques de concentration


3.4.1 La médiale
Nous avons précédemment vu que la médiane est la valeur qui divise le nombre d’observation en
deux parties égales. Par analogie, on définit la médiale qui est une valeur qui divise la masse totale
des valeurs en deux parties égales.

La formule de la médiale est :

M 
 2 − M1 
Mle = L1 + k   où
 me 
 

✓ L1 est la borne inférieure de la classe qui contient la médiale


✓ M est la masse totale M =  ni X i

37

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


✓ M1 est la masse cumulée de la classe précédant celle qui contient la médiale
✓ me est la masse de la classe qui contient la médiale ( me = ne X e )
✓ k est l’amplitude

Remarque

On peut aussi définir la médiale à l’aide des fréquences des masses.

3.4.2- indice élémentaire de concentration.


Elle est définie par

Mle − M e Mle − M e
ie = =
e X max − X min

38

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


CHAPITRE 4: ETUDE D’UNE SERIE STATISTIQUE A DEUX VARIABLES.

4.1- Tableaux croisés.

Le plus souvent dans les études statistiques, on est amené à étudier la population selon plusieurs
variables. Les tableaux croisés permettent de voir comment la population étudiée se répartit selon les
variables.

Les tableaux croisés sont appelés ainsi car ils « croisent » deux distributions au sein d’un même
tableau. Ils sont appelés aussi tableaux à double entrée.

4.1.1- Présentation formalisée d’un tableau croisé à deux dimensions.

On considère une population constituée de n individus que l’on veut étudier selon deux variables X
et Y. Ces variables peuvent être qualitatives, quantitatives discrètes ou quantitatives continues.

Notations.

➢ E X = {A1 , A 2 , , A I  l’ensemble de modalités, de valeurs, ou d’intervalles de la variable


X selon que la variable X soit qualitative, quantitative discrète, ou quantitative continue.

➢ EY = B1 , B2 , , BJ  EY = {B1, B2, …, BJ} l’ensemble de modalités, de valeurs, ou


d’intervalles du critère Y selon que le critère Y soit qualitatif, quantitatif discret, ou quantitatif
continu.

➢ ni j appelé l’effectif de la case (i, j), est le nombre d’individus ayant simultanément les
modalités (ou valeurs) Ai et Bj.
J
➢ Le total des effectif de la ligne n° i est donné par n i . = n i1 + n i2 +  + n iJ = nij
j=1

I
➢ Le total des effectif de la colonne n° j est donné par n. j = n1j + n 2j + + n Ij = nij
i=1

Après avoir précisé ces notations on peut à présent donner une présentation formalisée d’un tableau
croisé à deux dimensions ou tableau à double entrée.

❖ Tableau des effectifs.


Tableau 4.1.: Tableau formalisé de la répartition d'une population selon deux critères

Y B1 B2 . . . Bj . . . BJ Total
X
A1 n11 n 12 . . . n1 j . . . n1J n1.
A2 n 21 n 22 . . . n2 j . . . n 2J n 2.
. . . . . .
. . . . . .

39

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Ai ni1 ni2 nij niJ n i.
. . . . . .
. . . . . .
AI n I1 n I2 . . . nIj . . . n IJ n I.
Total n.1 n.2 . . . n.j . . . n.J n ..

Exemple 4.1:

Répartition des diamètres des troncs des espèces végétales (kapokier) selon le nombre d’années
d’existence.

Tableau 4.2: Répartition des diamètres des troncs des espèces végétales (kapokier) selon le nombre
d’années d’existence.

Y 1 2 3 4 total
X
[80,100[ 3 4 11 19 37
[100,120[ 5 0 9 5 19
[120,140[ 4 1 7 4 16
[140,160[ 10 0 6 2 18
[160,180[ 6 2 37 0 45
Total 28 7 70 30 135

Activité 4.1.:

Lire et interpréter les valeurs du tableau ci-dessus.

❖ Le tableau des fréquences simples

Dans la pratique les tableaux des effectifs sont peu utilisés par rapport aux tableaux des fréquences.
L’interprétation devient encore plus intéressante lorsqu’elle est faite en termes de proportion ou
fréquence.

Définition : fréquence f ij
n ij
On appelle fréquence f i j , de la case (i, j), la proportion : f i j = . C’est la proportion des individus
n
de la case (i, j).
Exemple 4.2:

En reprenant l’exemple 2.7, on obtient le tableau des fréquences ci-après.

Tableau 4.3: Répartition des diamètres des troncs des espèces végétales (kapokier) selon le
nombre d’années d’existence

Années
1 2 3 4 total
Diamètre
[80 , 100[ 2,22 2,96 8,15 14,07 27,41

40

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


[100,120[ 3,70 0,00 6,67 3,7 14,07
[120,140[ 2,96 0,74 5,19 2,96 11,85
[140,160[ 7,41 0,00 4,44 1,48 13,33
[160,180[ 4,44 1,48 27,41 0 33,33
Total 20,74 5,19 51,85 22,22 100

Exemple 4.3 : interprétation

Le tableau indique que 4,44% des kapokiers ont une année d’existence et ont un diamètre compris
entre 160 et 180 cm.

Activité 4.2:

Donner la répartition (fréquence) de ce groupe d’étudiants selon la région d’obtention du BAC et le


nombre d’années passés au Lycée.

❖ Distribution marginale

Définition de fréquences marginales

J
Fréquence marginale de la ligne n° i : f i . = fij
j=1

I
Fréquence marginale de la colonne n° j : f . j = fij
i=1

ni. n. j
Il est facile de savoir que f i. = et f. j = .
n n

Des effectifs n ij et des fréquences f i j d’une distribution selon deux variable X et Y, on peut établir
les deux distributions selon chacune des variables. Ainsi, n i . et f i . sont l’effectif et la fréquence
des individus de la modalité A i . Ces deux séries de nombres définissent ce qu’on appelle la
distribution marginale selon la variable X et permettent de dresser le tableau correspondant. De
même, n . j et f . j définissent la distribution marginale selon la variable Y.

Tableau 2.10 : Distribution marginale selon Tableau 2.11 : Distribution marginale selon
la variable X la variable Y
X Effectif Fréq. Y Effectif Fréq.
A1 n1 . f1 . B1 n.1 f. 1
A2 n2 . f2 . B2 n. 2 f. 2
. . . .
. . . .
Ai ni . fi . Bj n. j f. j
. . . .

41

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


. . . .
AI nI . fI . BJ n. J f. J
Total n 100 Total n 100

Exemple 4.4:

En utilisant les effectifs marginaux de l’exemple 4.1 on obtient les distributions marginales comme
suit :

Tableau 2.11 : Distribution marginale des Tableau 2.12 : Distribution marginale des
kapokiers selon leur diamètre kapokiers selon le nombre d’années
X Effectif Fréq. d’existence
[80 , 100[ 37 27,41 Y Effectif Fréq.
[100,120[ 19 14,07 1 28 20,74
[120,140[ 16 11,85 2 7 5,19
[140,160[ 18 13,33 3 70 51,85
[160,180[ 45 33,33 4 30 22,2
Total 135 100 Total 135 100

❖ distributions conditionnelles.

Alors que les distributions marginales ne sont que les répartitions des individus selon l’une des deux
variables, indépendamment de la liaison qui peut exister entre X et Y, les distributions
conditionnelles constituent une première approche de l’étude de la liaison entre les deux variables.

A partir d’un tableau à double entrée, on peut construire deux tableaux de distributions
conditionnelles :

✓ distributions conditionnelles des lignes ou profils lignes ;

✓ distributions conditionnelles des colonnes ou profils colonnes.

Définitions.

ni j
La proposition f j / i = est appelé fréquence conditionnelle de la modalité B j de la seconde
ni .
variable sachant que la première variable a la modalité Ai .

n ij
La proportion f i / j = est la fréquence conditionnelle de la modalité Ai de la première variable
n. j
sachant que la seconde variable a la modalité B j .

Tableau 4.5: Distribution conditionnelles des lignes(%)


années. 1 2 3 4 total
42

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Diamètre
[80,100[ 8,11 10,81 29,73 51,35 100
[100,120[ 26,32 0,00 47,37 26,32 100
[120,140[ 25,00 6,25 43,75 25,00 100
[140,160[ 55,56 0,00 33,33 11,11 100
[160,180[ 13,33 4,44 82,22 0,00 100
Total 20,74 5,19 51,85 22,22 100

Exemple 4.4: interprétation

La lecture du tableau 4.5 indique que plus de la moitié (51,35%) des kapokiers ayant un diamètre
compris entre 80 et 100 cm ont 4 années d’existence alors qu’aucun kapokier parmi ceux qui ont un
diamètre supérieur ou égal à 160 cm n’a plus de 4 années d’existence.

Tableau 4.6: Distribution conditionnelles des colonnes (%)


Années
Diamètre
1 2 3 4 total
[80,100[ 10,71 57,14 15,71 63,33 27,41
[100,120[ 17,86 0,00 12,86 16,67 14,07
[120,140[ 14,29 14,29 10,00 13,33 11,85
[140,160[ 35,71 0,00 8,57 6,67 13,33
[160,180[ 21,43 28,57 52,86 0,00 33,33
Total 100 100 100 100 100

4.1.2. Covariance et corrélation entre deux variables


Une première démarche à suivre lorsqu’il s’agit d’étudier la corrélation s’il s’agit de deux variables
quantitatives est de représenter le nuage des points.
Le nuage des points ou le diagramme de dispersion d’une population étudiée selon deux caractères
X et Y est la représentation graphique des couples ( X i , Yi ) dans un système d’axes orthonormé
(OX, OY) avec des unités fixées. Cette représentation peut permettre d’avoir une idée sur
✓ la forme de la relation ;
✓ le sens de la relation ;
✓ l’intensité de la relation.
Exemple 4.5: Représenter le nuage de points dans chacun des cas suivants et caractériser la relation.

Tableau a Tableau b
X 28 31 34 38 52 32 21 25 36 40 X 2 4 7 6 5 6 4 7 3 2
Y 37 38 40 45 50 39 31 35 41 44 Y 1 2 2 4 7 7 6 5 4 5
Tableau c Tableau d
X 1 2 4 1 5 6 4 7 3 2 X 1 2 1 2 3 3 4 4 5 5
Y 2 4 6 1 6 4 6 1,5 5 4 Y 1 2 2 4 3 4 6 5 6 7

43

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


L’analyse du nuage de points peut être suffisante pour tirer les conclusions mais souvent on a besoin
d’apprécier l’intensité de cette relation au moyen de coefficient de corrélation.
Définition : Le coefficient de corrélation est une valeur numérique qui permet de donner une mesure
synthétique de l’intensité de la relation entre deux caractères. Il permet aussi de donner le sens de la
relation lorsqu’elle est monotone.
Il existe plusieurs coefficients de corrélation. Dans ce cours, nous aborderons le coefficient de
corrélation le coefficient de corrélation linéaire de Karl-Pearson et le coefficient de corrélation des
rangs de Spearman.
- Le coefficient de corrélation linéaire de Karl Pearson
C’est le coefficient de corrélation le plus utilisé pour mesurer la corrélation linéaire entre deux
variables quantitatives. Sa définition est basée sur la notion de covariance.
Définition : La covariance entre deux variables X et Y est notée Cov ( X , Y ) et définie par :
1 n
Cov( X , Y ) =  ( xi − X )( yi − Y ) .
n i =1
En développant cette formule, on aboutit a une formule plus pratique et plus facile sous la forme :
1 n
Cov( X , Y ) =  xi yi − XY
n i =1
ou Cov( X , Y ) = XY − XY .

On peut remarquer que Cov( X , Y ) = Cov(Y , X )


Définition : Le coefficient de corrélation de Pearson est défini par
Cov( X , Y ) XY − XY
r( X ,Y ) = ou r( X ,Y ) =
 XY  XY

Remarque : r( X ,Y ) = r(Y , X ) . On montre que −1  r( X ,Y )  1 et r( X , X ) =1 .


✓ Si r est proche de 0 alors on conclut qu’il n’existe pas de corrélation linéaire entre X et Y ;
✓ Si r est proche de 1 alors on conclut qu’il existe une corrélation linéaire positive entre X et Y.
✓ Si r est proche de -1 alors on conclut qu’il existe une corrélation linéaire négative entre X et Y.

44

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Test de significativité ou de validité : Dans la pratique, r est rarement proche de l’une de ces trois
valeurs ; il est donc difficile de proposer une interprétation fiable. C’est pour cela qu’avant toute
interprétation de coefficient de corrélation linéaire, il faut le soumettre à un test de validité. Ainsi, il
est admis que pour qu’un coefficient de corrélation r soit valide ou significatif au seuil de 5%, il
faudrait que :
r n
 2, 6 ; n étant la taille de l’échantillon.
1− r2
Exemple 4.6 : Le tableau ci-dessous renferme les données sur la quantité d’engrais utilisée et la
production qui en est résultée auprès de 10 cultivateurs de maïs dans un village. Déterminer le
coefficient de corrélation de Pearson entre la quantité d’engrais et la production de maïs.
Quantité d’engrais (X) 31 31 32 33 33 34 35 36 37 38
Quantité de la production de maïs (Y) 50 55 52 56 63 65 69 90 110 150
Calculez la covariance puis le coefficient de corrélation linéaire de Pearson entre X et Y.
Solution

i Xi Yi XiYi Xi2 Yi2


1 31 50 1550 961 2500
2 31 55 1705 961 3025 X = 34, 2 ; Y = 76 ; XY = 2661,1 ; Cov( X , Y ) = 61,9 ;
3 32 52 1664 1024 2704
4 33 56 1848 1089 3136  X = 2, 4  Y = 30, 4302 ; r ( X , Y ) = 0,8476
5 33 63 2079 1089 3969
6 36 65 2340 1296 4225
r n
7 35 69 2415 1225 4761 = 9,52
8 36 90 3240 1296 8100 1− r2
9 37 110 4070 1369 12100
10 38 150 5700 1444 22500
Total 342 760 26611 11754 67020
La valeur trouvée pour la corrélation est assez élevée et le test effectué montre qu’elle est valide ou
significative; ce qui permet de conclure que statistiquement, il existe une forte relation linéaire entre
X et Y.
Activité : Démontrer que la corrélation linéaire de Pearson peut aussi se définir par les formules.

 xi ( yi − Y )
n

 y (x − X )
n

i i
r( X ,Y ) = i =1
et r ( X , Y ) = i =1
n n n n

( x − X ) ( y −Y ) ( x − X ) ( y −Y )
2 2 2 2
i i i i
i =1 i =1 i =1 i =1

4.2- Ajustement linéaire

Dans le cas de deux variable X et Y, l’on peut constater que le nuage de points semble décrire une
droite dans le plan. Le but de la régression linéaire est de déterminer l’équation de cette droite. En
supposant que Y est la variable expliquée, alors l’équation de cette droit s’écrit :
yi = a + bxi +  i où

✓ yi est la valeur de la variable Y (variable à expliquer ou variable endogène) observée sur


l'individu i,

45

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


✓ xi est la valeur du variable explicative (exogène) observée pour l'individu i; on supposera
que la valeur de cette variable est parfaitement contrôlée,
✓  i est le résidu ou le terme d'erreur,
✓ a est le terme constant du modèle c'est-à-dire la valeur moyenne de Y quand X vaut 0,
✓ b est la pente de la droite, c’est la variation moyenne de Y suite à l’augmentation d’une unité
de X.
La quantité yˆi = a + bxi est la valeur ajustée de la variable Y pour l'individu i ayant

xi comme valeur de la variable explicative observée. L’équation yˆi = a + bxi est appelée
équation de la droite de la régression linéaire simple. Déterminer cette équation revient à déterminer
alors les valeurs des paramètres a et b. Ce qui se fait soit par les méthodes graphiques soit par les
méthodes analytiques. Si aucune précision n’est faite, on utilise toujours les méthodes analytiques.
4.2.1 - La méthode graphique
Plusieurs méthodes graphiques sont utilisées notamment la méthode de Mayer ou de la double
moyenne et la méthode de médiane- médiane. Les étudiants sont invités à faire de recherche sur la
méthode médiane-médiane.
Méthode de Mayer
Elle consiste d’abord à diviser la série de données en deux groupes égaux (ou presque égaux si le
nombre d’observations est impair) puis à calculer pour chacun d’eux un point moyen. Enfin, on
trace la droite qui rejoint ces deux points.
Les étapes à suivre pour estimer la droite de régression à l’aide de la méthode de Mayer :
✓ Placer les coordonnées en ordre croissant des abscisses et créer deux groupes égaux (si possible).
✓ Pour chacun des deux groupes, trouver la moyenne des abscisses et la moyenne des ordonnées
que l’on notera P1 ( x1 , y1 ) et P2 ( x2 , y2 ).
✓ Déterminer la droite de régression passant par ces deux points. C'est-à-dire calculer
y2 − y1
(3.3) b= et a = y1 − bx1 = y2 − bx2 .
x2 − x1
Exemple 4.6 : Dans le but de déterminer la relation qui existe entre le Revenu mensuel des étudiants et
leur consommation, une enquête a été réalisée auprès de 10 étudiants de la FDS. Les données sont en
milliers de francs CFA.
Revenu (R) 30 44 45 65 30 35 39 40 50 60
Consommation
20 28 30 32 22 25 26 25 32 35
(C)

a- Déterminer la droite d’équation par la méthode de Mayer.


Résolution
Diagramme de dispersion

46

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Le diagramme de dispersion présente un nuage de points ayant une forme allongée. Ceci implique
que la relation éventuelle entre Revenu et la consommation des ménages est linéaire. De plus cette
forme de nuage nous renseigne que lorsque le revenu d’un ménage augmente, sa consommation aussi
augmente.

Cette relation s’écrit : Cˆi = a + bRi . Avec C la consommation et R le revenu du ménage.


Détermination de a et b par la méthode de Mayer.
La détermination des coefficients a et b se fait à travers les étapes suivantes :
1- Ordonner les observations suivant la variable explicative ou exogène ou encore indépendante.
Dans notre cas, la variable explicative est le revenu. Le tableau ordonné se présente ainsi :
Revenu (R) 30 30 35 39 40 44 45 50 60 65
Consommation
20 22 25 26 25 28 30 32 35 32
(C)

2- Déterminer deux points moyens P1 et P2 : P1 ( x1, y1 ) et P2 ( x2 , y2 ) où :

30+30+35+39+40 20+22+25+26+25
x1 = = 34,8 y1 = = 31,4
5 5
On fait de même pour le deuxième groupe : x2 = 52,8 et y2 = 31,4
Ainsi P1 (34,8 ; 23,6) et P2 (52,8; 31,4)

3- détermination de la droite
y2 − y1 31,4 − 23,6
b= = = 0,43 a = y1 − bx1 = y2 − bx2 = 8,7 d’où Cˆi = 0,43Ri + 8,7
x2 − x1 52,8 − 34,8

4.2.2 - La méthode analytique : Méthode des moindre Carrés Ordinaire.

47

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


Elle donne des valeurs plus précises. Cette méthode s’appuie sur le principe des « Moindres Carrés
Ordinaires » (MCO). Ce principe impose de minimiser la somme des carrés des erreurs commise en
considérant yˆ i comme étant yi . Donc on veut minimiser la somme des  i2 .
n n
 i = yi − yˆi = yi − a − bxi   i2 = ( yi − a − bxi )2    i2 =  ( yi − a − bxi )2
i =1 i =1
n
Soit S =  ( yi − a − bxi )2 . Le principe des MCO revient à déterminer a et b de sorte que S soit
i =1

minimum. Pour cela, on considère que S est une fonction à deux variables a et b. Pour déterminer
son minimum, il faut donc annuler les dérivées partielles de S par rapport à a et à b. On a :
S n
 n n

=  −2( yi − a − bxi ) = −2   yi − na − b xi  et
a i =1  i =1 i =1 
S n
 n n n

=  −2 xi ( yi − a − bxi ) = −2   xi yi − a xi − b xi2 
b i =1  i =1 i =1 i =1 
En annulant ces deux quantités, on trouve un système d’équations suivant :
 n n
 n n

 i y − na − b  xi = 0  na + b  xi =  yi
 i =1 i =1  i =1 i =1
 n n n
ou encore :  n n n
C’est le système d’équations
 x y −a x −b x = 0 a x + b x = x y
      
2 2
i i i i i i i i
i =1 i =1 i =1 i =1 i =1 i =1

normales.

a + bX = Y
Il peut se réécrire sous la forme : 
aX + bX = XY

2

XY − X Y
La résolution de ce système donne : b= et a = Y − bX
X 2 −(X )
2

Cov( X , Y )  Y
On peut remarquer que : b = = r( X ,Y )
Var ( X ) X
Signification des paramètres a et b.
Le paramètre a est la constante du modèle. C’est la valeur de Y lorsque la valeur de X est nulle. Au
plan géométrique c’est l’ordonné du point où la droite d’équation coupe l’axe des ordonnées.
Le paramètre b est la variation moyenne de Y lorsque X augmente d’une unité. C’est la pente de la
droite d’équation déterminée. Ce paramètre a une interprétation très intéressante et parfois c’est son
signe qui est recherché.
Exemple 4.7: Déterminer la droite de régression linéaire du tableau de l’exemple 4.6 puis répondre
aux questions suivantes :
a- Représenter le nuage de points et la droite de régression dans un même repère.
b- Quel est la consommation moyenne d’un étudiant qui a un revenu de 53000 FCFA
c- De combien augmentera en moyenne la consommation d’un étudiant qui a un revenu
additionnel de 8500 FCFA ?

48

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020


[Link] - Coefficient de corrélation linéaire

Le coefficient de corrélation linéaire entre la variable X et la variable Y est le nombre

La corrélation linéaire entre X et Y est d'autant plus importante que D = r2 (appelé coefficient de
détermination) est proche de 1.

- Propriétés importantes

1. où est le coefficient directeur de la droite de régression linéaire de X sur Y et


ayant pour équation :

2. La variance de Y se décompose de la façon suivante (formule de décomposition de la


variance) :

Avec : = la variance totale


= la variance expliquée
= la variance résiduelle

La proportion de variance expliquée par le modèle linéaire est

3.

On note que r indique le signe de la liaison et le R2 explicite la proportion de la variance qui pourrait
être expliquée si une relation entre les deux variables existait. Les fluctuations de la variable
dépendante sont expliquées et non causées par les mouvements de la variable indépendante.
FIN DU COURS
Annexe
Travaux Dirigé

Exercice 1
La répartition des élèves du lycée Descartes en fonction de la langue vivante étudiée est donnée
par le tableau suivant :
Langues Effectifs
Anglais 934
Allemand 351
Espagnol 205
Italien 69
Divers 41
Total 1600
1. Préciser la population étudiée, le caractère, sa nature et ses modalités.
2. Compléter le tableau avec les fréquences et les angles.
3. Représenter cette distribution par un diagramme à secteurs.
4. Préciser le mode du caractère. Quel est le pourcentage d’élèves qui n’étudient pas l’Anglais ?
Exercice 2
Lors d’une journée, on a relevé les âges de 20 personnes venant se présenter à l’examen théorique
du permis de conduire : 18, 19, 19, 23, 36, 21, 57, 23, 22, 19, 18, 18, 20, 21, 19, 26, 32, 19, 21, 20.
1. Préciser la population, l’échantillon et le caractère étudiés. Quelle est la nature de ce caractère ?
2. Déterminer la moyenne, la médiane, le mode, la variance, l’écart-type et l’intervalle interquartile
de cette distribution d’âges.
Exercice 3
La mensuration des élèves d’une classe a donné les résultats suivants (en centimètres) :
165 158 172 171 149 153 157 160 155 162 164 158 166 170 150 165
174 175 180 164 181 171 157 167.
On groupe ces mesures par classes d’amplitude 5 cm, la première étant [145,150[ et la dernière
[180,185[.
1. Indiquer dans un tableau :
(a) les classes
(b) les effectifs
(c) les effectifs cumulés croissants
(d) les effectifs cumulés décroissants
2. Donner la signification des valeurs de la 4e ligne du tableau.
3. Représenter graphiquement (sur le même graphique) :
(a) les fréquences
(b) les fréquences cumulées croissantes
(c) les fréquences cumulées décroissantes
Exercice 4
Une organisation non gouvernementale cherche à appuyer les groupements agricoles opérant dans
la culture du café. Elle mène une enquête dans ce sens et relève les quantités (en tonnes) de café
produites en fonction des financements (en millions de francs CFA). Les résultats sont les suivants :
1
159 178 181 158 170 169 158 190 154 181 164 150 154 157 172
163 169 178 182 187 164 165 161 167 172 152 160 166 169 180
189 173 170 150 158 164 151 165 177 159 157 172 176 179 185
168 167 157 173 157 184 179 153 160 162 158 182 180 150 171
1. En considérant les classes suivantes, présenter le tableau de dépouillement :
[150,155[ ; [155,165[ ; [165,175[ ; [175,180[ ; [180,185[ ; [185,195[.
2. Déterminer :
– la quantité moyenne de café produite ;
– la quantité de café fréquemment produite ;
– la quantité de café médiane produite ;
– la quantité de café telle que les 15 plus gros producteurs aient une production qui lui est
supérieure.
3. Déterminer la variation moyenne de production de café d’un groupement à un autre. Quel
est le nom de cette grandeur en Statistique ?
4. Calculer le coefficient de variation de cette distribution et dire si elle est homogène ou
hétérogène en vous basant sur le critère de Gauss.
Exercice 5
On donne la distribution de 35 élèves d’une classe selon leur nombre de frères.
Nombre de
0 1 2 3 4 5
frères
1
Nombre d’élèves 9 7 3 2 1
3
1. Établir le diagramme d’illustration de cette distribution.
2. Calculer les effectifs cumulés (croissants et décroissants) de cette série statistique.
3. Combien d’élèves ont :
(a) 2 frères au moins
(b) moins de 2 frères
4. Représenter graphiquement les fréquences cumulées de cette distribution
5. Déterminer la moyenne, la médiane et le mode de cette distribution.
6. Calculer l’écart-type et le coefficient de variation. Cette distribution est-elle homogène ?
Exercice 6
Un tour automatique produit des axes cylindriques. Les diamètres en (1/10 de mm), mesurés sur
un lot de 1000 pièces ont donné les résultats suivants :
[244 [246 [248 [249 [250 [251 [252 [254
Classes
;246[ ;248[ ;249[ ;250[ ;251[ ;252[ ;254[ ;258[
Effectifs 11 132 152 200 194 158 139 14
1. Préciser la population, l’échantillon, un individu et le caractère X étudiés. Quelle est la
nature de ce caractère ?
2. Tracer l’histogramme du caractère X.
3. Calculer la moyenne, la variance, l’écart-type, la médiane, le mode et l’intervalle interquartile du
caractère X.
2
Exercice 7
Afin d’établir un rapport éventuel entre l’âge et les loisirs, un psychosociologue enquête auprès
d’une population de 20 personnes et obtient les informations suivantes :
1 1 1 1 1 1 1 1 1 1 2
Sujet 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9 0
1 1 4 3 2 3 3 5 7 5 3 4 2 5 2 2 5 4 2 3
Âge X
2 4 0 5 6 0 0 0 5 0 0 5 5 5 8 5 0 0 5 5
Loisir Y S S C C S T T L L L T C C C S L L C T T
Notations : S=Sport ; C=Cinéma ; T=Théâtre ; L=Lecture.
1. Que représente la première ligne de ce tableau ? Sur combien de sujets l’enquête a-t-elle
porté ?
2. Combien a-t-on de variables ? Quel est le type de chaque variable ?
3. Pour chaque variable, dresser le tableau donnant les classes, les effectifs de chaque classe
et les fréquences.
4. Représenter les fréquences des variables X et Y à l’aide de diagrammes en bâtons.
5. Tracer le graphe de la fonction de répartition de X. Peut-on tracer celui de Y ? Expliquer.
6. Quel est le pourcentage des sujets :
(a) âgés de moins de 30 ans ?
(b) âgés d’au plus 30 ans ?
(c) âgés d’au moins 30 ans ?
(d) qui préfèrent le cinéma ?
(e) qui ne préfèrent pas la lecture ?
7. La différence des deux pourcentages calculés en (b) et (a) est-elle aussi un pourcentage ?
Comment l’interpréter ?
Exercice 8

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 52


Une enquête auprès des groupements de production de soja a donné la répartition suivante des
groupements agricoles de la région des savanes selon les ventes de soja (en milliers de francs CFA)
en 1997.
Vente de soja 26 - 30 30 - 34 34 - 38 38 - 42 42 - 46
Groupements 12 20 32 24 12
1. Identifier la variable étudiée et donner sa nature puis la population étudiée.
2. Représenter graphiquement cette population.
3. Calculer les caractéristiques de tendance centrale (moyenne, médiane et mode) et donner
leur interprétation.
4. Déterminer la vente V1 telle que les 50 groupements les plus performants réalisent des
ventes dont les montants sont compris entre V1 et 46 000 francs.
5. Déterminer les ventes V2 et V3 telles qu’elles divisent le nombre total des groupements en
deux parties dont l’une est le tiers de l’autre.
6. Déterminer l’écart absolu moyen en fonction du mode puis les autres caractéristiques de
dispersion. Tirer une conclusion.
Exercice 9

La répartition de 60 personnes selon leur poids est donnée par le tableau suivant :
[48,52 [52,56 [56,60 [60,64 [64,68 [68,72
Poids en kg
[ [ [ [ [ [
Effec. 3 15 23 12 5 2
3
1. Tracer l’histogramme des fréquences relatif à cette série.
2. Tracer dans le même repère le polygone des fréquences.
Exercice 10
Une enquête auprès de 25 petites entreprises portant sur le nombre de salariés a donné les
résultats suivants :
4 9 1 3 3 5 4 4 4 1 13 5 5 9 3 5 1 4 5 5 5 13 3 5 9.
1. Présenter les résultats de cette enquête sous forme de tableau statistique.
2. Faire le diagramme des effectifs.
3. Calculer la moyenne de cette série.
Exercice 11

A un examen on a relevé pour 100 candidats les notes suivantes :


Notes Nombre de candidats
moins de 2 3
de 2 à moins de 4 2
de 4 à moins de 6 15
de 6 à moins de 8 14
de 8 à moins de 10 20
de 10 à moins de 12 23
de 12 à moins de 14 12
de 14 à moins de 16 5
de 16 à moins de 18 5
de 18 à 20 1
1. Tracer l’histogramme des effectifs et le polygone des effectifs cumulés croissants.
2. Calculer la médiane et la moyenne de cette série

Exercice 12

Un contrôle des prix d’un même produit effectué sur 100 points de vente a donné les résultats
suivants :
Classes de prix Nombre de points de ventes
[855, 875[ 2
[875, 895[ 8
[895, 915[ 16

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 53


[915, 935[ 24
[935, 955[ 25
[955, 975[ 17
[975, 995[ 7
[995, 1015[ 1
1. Tracer l’histogramme de cette distribution.
2. Déterminer le mode de la série statistique.
3. Calculer la fréquence des prix inférieurs à 935 F.
Exercice 13

La répartition de la population active d’un pays par âge est donnée par le tableau suivant :
4
Age Nombre de
(en personnes
années) (en milliers)
15 à 25 890
25 à 30 410
30 à 35 370
35 à 40 370
40 à 45 320
45 à 50 290
50 à 60 360
60 à 70 190
1. Tracer l’histogramme des effectifs et le polygone des effectifs cumulés.
2. Déterminer graphiquement les quartiles.

Retrouver les résultats par un calcul.

Exercice 14

L’entreprise XM a fait une étude de ses technico-commerciaux employés à la vente des véhicules
neufs. Les âges se répartissent de la façon suivante :
20- 25- 30- 35- 40- 45- 50- 55-
Âges
25 30 35 40 45 50 55 60
Nombres de
3 9 12 12 6 3 1 1
salariés
Elle désire connaître :
1. la moyenne des âges.
2. l’écart-type.
3. les quartiles et l’écart interquartile.
4. le jugement que l’on peut porter sur cette répartition des âges des commerçiaux.
Exercice 15

Afin de préparer une annonce publicitaire sur la qualité exceptionnelle de son produit, le Directeur
Technique d’une firme de fabrication et de vente de pneus fait appel à votre service et met à
votre disposition les données suivantes sur la répartition des pneus selon la duré de vie exprimée en
milliers de kilomètres parcourus.

Tableau 1 : Répartition d’un échantillon de pneus selon la duré de vie.


5- 10- 15- 20- 25- 30- 35-
Durée de vie
10 15 20 25 30 35 40
Pneus 100 25 75 50 400 150 200
Tableau 2 : Répartition d’un échantillon de pneus selon la duré de vie.
5- 10- 15- 20- 25- 30- 35-
Durée de vie
10 15 20 25 30 35 40
Pneus 25 75 100 200 400 150 50

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 54


1. On vous demande de déterminer et interpréter, pour chacune des deux séries, les caracté-
ristiques suivantes : la moyenne arithmétique, le mode, la médiane.
2. L’un de vos collègues, après étude, conseille au Directeur de cette société la première
distribution. Qu’en dites-vous ?

3. Déterminer le premier et le troisième quartile de la première série.


Exercice 16

Une enquête auprès de 200 responsables commerciaux a permis de mettre en évidence la


durée
du processus de recrutement de nouveaux vendeurs. Le tableau suivant donne les réponses
de
ceux-ci :
5
Nombre de
Durée de recrutement
réponses
[0, 1 mois[ 66
[1, 3 mois[ 78
[3, 5 mois[ 44
[5, 7 mois[ 4
[7, 10 mois[ 8
1. Quelle est la durée moyenne de recrutement d’un nouveau vendeur ?

2. Calculer la variance et l’écart type de cette distribution. Quelle est la signification de ce


dernier ?

3. Étudier la dispersion de cette série en calculant et en définissant l’intervalle interquartile.

4. Commenter les résultats.

Exercice 17

On considère l’ensemble des notes obtenues par 50 étudiants après un examen de Statistique noté
sur 20.

11 10 08 03 12 13 09 12 09 12 09 12 16 11 11 08 05 13 14 14
06 12 14 07 11 10 10 02 15 12 10 07 13 11 07 08 10 13 09 01
14 11 19 09 04 10 08 09 06 07.

1. Présenter le tableau de dépouillement en considérant les classes suivantes : [0,5[ ; [5,7[ ;


[7,9[ ; [9,11[ ; [11,13[ ; [13,15[ ; [15,20[.

2. Représenter l’histogramme des fréquences de cette distribution de notes et son lissage.


3. Déterminer les caractéristiques de tendance centrale et donner leur interprétation.
4. Calculer le coefficient de varation. Quelle observation peut-on faire ?
5. Calculer l’écart absolu moyen en fonction du mode et de la médiane.
6. Déterminer le 20e et le 40e centile.

Travaux dirigés sur les statistiques à deux variables

Exercice 18

Le tableau suivant donne la distance de freinage d’un véhicule automobile en fonction de sa


vitesse.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 55


4
5 6 7 8 9 10 11 12
Vitesse (Km/h)
0
0 0 0 0 0 0 0 0
1 1 2 3 4
Distance (Km) 8 48 58 72
2 8 4 2 0
1. Identifier la variable expliquée et la variable explicative.
2. Déterminer l’équation de la droite de régression par la méthode de Mayer et par la méthode
des moindres carrées. Quel est le meilleur ajustement ? Expliquer.
3. Estimer à l’aide de l’ajustement par la méthode des moindres carrées la distance de freinage
d’un véhicule roulant à 130 Km/h.

Exercice 19

L’observation des prix et des quantités sur un marché de la tomate a donné les résultats suivants :
1 11 13
Quantités x en kg 20 35 50 70 90
0 0 0
1,7
Prix y au kg en e 5 3,75 2,75 2,25 1,25 0,8 0,5
5
Ainsi, une quantité de 35 kg de tomates est vendue au prix de 2,75 e le kg.
1. Représenter graphiquement le nuage de points.

Dans la suite de l’exercice, tous les résultats obtenus à la calculatrice seront donnés avec
quatre décimales.

2. Déterminer la droite d’ajustement linéaire y = ax + b qui permet d’expliquer le prix au


kg par la quantité achetée. Calculer le coefficient de corrélation entre x et y et expliquer
son signe. Calculer le coefficient de détermination et rappeler son interprétation. Prévoir le
prix d’un kg de tomates pour un achat de 140 kg. Commenter le résultat.
3. Chercher maintenant un ajustement par une fonction logarithme de la forme y = a ln(x)+b.
(Indication : En posant z = ln(x) on se ramènera à un ajustement linéaire y = az + b)
Calculer le coefficient de corrélation entre z et y et le coefficient de détermination. Prévoir
le prix au kg pour un achat de 140 kg.

4. Indiquer lequel de ces deux ajustements vous semble le plus judicieux (on justifiera la
réponse).
Exercice 20

On a monté une série d’expériences dans une unité pilote en vue d’étudier l’influence de la
température sur le rendement d’une réaction chimique sous une pression donnée. Les données
recueillies sont les suivantes (x est la température t - 60˚C ; y le rendement en %) :
1
x 1 2 3 4 5 6 7 8 9
0
1 1 1 1 1 2 2
y 4 6 8
1 2 5 6 8 1 2
Étudier la liaison entre y et x. On fera le graphique en « nuage de points » des valeurs de y en
fonction des valeurs de x. On construira la droite de régression de y en x et on donnera la valeur
du coefficient de corrélation linéaire ρxy.

Exercice 21

Soit le tableau suivant portant sur les ventes annuelles des produits cosmétiques et les dépenses
publicitaires.
5 25 70 45 11 60 100 7 15 20 55 75 80 90
Vente (V )
0 0 0 0 0 0 0 5 0 0 0 0 0 0
Dépense (P ) 3 5 7 6 6 8 3 4 4 6 7 7.5 7.5 8.8
1. Identifier la variable expliquée et la variable explicative.
2. Déterminer le coéfficient de corrélation de Pearson entre les deux variables.
3. Etablir une régression entre les deux variables en utilisant la méthode de Mayer.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 56


4. Estimer les ventes si les dépenses publicitaires augmentent de 5000 Fcfa en utilisant la
méthode des moindres carrés.

Exercice 22

Le tourisme en Europe est résumé par le tableau ci-après :


Nombre total x (en millions) de Recette totale y (en dizaine de
Pays
touristes arrivant millions de FCFA)
Allemagne 4,9 45
Espagne 4,1 7
France 5,5 40
Italie 8,6 50
Suisse 4,6 25
1. Représenter le nuage de points et indiquer si un ajustement linéaire est vraisemblable.
2. Établir les équations des droites de régression de y sur x et de x sur y.
3. Calculer le coefficient de corrélation linéaire r entre x et y.
4. Estimer les recettes totales pour un pays qui accueille 5,2 millions de touristes.
5. Estimer le nombre de touristes accueillis par un pays qui a réalisé 370 millions de recettes
globales.

Exercice 23 :
Il a de cela quelques mois vous fûtes informés du démarrage du projet financé par Fund
Yati&Bithi intitulé «Renforcement des Capacités des élèves de CM1 en français et en calcul ».
Prévu pour une période de 5 ans, la première phase de trois ans dudit projet arrivera à terme à la
fin du mois de juillet 2010. Vous avez été recruté alors comme consultant pour procéder à
l’évaluation à mi-parcours d’un tel projet. Pour approfondir votre recherche, vous avez réalisé
une collecte des données auprès des élèves dont voici un extrait.
Moyenne générale (Y) 7.5 6.8 6.5 4.3 6.5 3.5 8.9 4.5 8.3 9 2.6 3.9
Moyenne en français (X) 5.8 5.9 5.2 4 5.6 5.3 8.6 7 6.3 8.9 2.3 4.9
Moyenne en calcul (Z) 7 5 5.9 4.3 4.6 5.3 4.8 5 9.3 7.6 5 3.6
1.1 On vous rappelle que l’étude base avait estimé les notes moyennes en français et en calcul à
respectivement 4.8/10 et 5.2/10. Utilisez les données du tableau pour mesurer l’effet du projet en
termes de proportion.
1.2 Calculer la corrélation entre Y et X puis entre Y et Z. Faire une interprétation.
1.3 Donner l’équation de la régression linéaire de Y sur X ou celle de Y sur Z. Interprétez.
1.4 Après cette analyse des données, on vous demande de formuler clairement trois (3)
recommandations au gestionnaire de projet.

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 57


Annexes

1. Cours De statistique de la FASEG,


faite par ETOUDJI Albert
2. Cours de statistique de la FDS faite
Dr Kpanzou, PELEI et
KOKOLOKO
3. Travaux dirigés MTH 160

Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 58

Vous aimerez peut-être aussi