Math160 1
Math160 1
**********
Faculté des Sciences
**********
BPA-BPV_GSC
01/02/2020
Chargé du cours :
ISE AGBOBLY-ATAYI Ayikoué Honoré
ISE KOKOLOKO Essopha
CHAPITRE1 : GENERALITES
1-Introduction
1.1- Définition et historique
L’origine du mot « statistique » remonte au latin classique status (état) qui, par une série
d’évolutions successives, aboutit au français statistique, attesté pour la première fois en 1771.
De façon un peu grossière, on peut distinguer trois phases essentielles dans l’évolution de la
statistique.
➢ Entre la fin du 19ème siècle et les années 1960, s’est construit, notamment à la suite de
l’école anglaise (K. Pearson, W. Gosset (Student), R. Fisher, J. Neyman.. .), la statistique
mathématique (ou statistique inférentielle).
➢ Depuis les années 1960, avec le développement des outils informatiques et graphiques,
la statistique, et surtout la statistique descriptive multidimensionnelle, a connu une expansion
considérable.
La statistique est définie aujourd’hui comme étant un ensemble de méthodes visant à collecter
les données, à les traiter et à les analyser en vue de prendre des décisions.
Les méthodes en question relèvent le plus souvent des mathématiques et font largement appel
à l’outil informatique pour leur mise en œuvre.
Exemple 1.1 :
Si à la suite d’une analyse statistique, le Directeur d’une société constate que le retard de ses
employés est dû au manque de moyens de déplacement, il peut par exemple augmenter les
salaires ou leur accorder des prêts afin que chacun puisse disposer d’un moyen de
déplacement.
Exemple 1.2 :
Les statistiques sur le chômage, les statistiques sur la réussite des étudiants de la FDS, les
statistiques sur la santé, les statistique du commerce extérieur
De manière approximative, il est possible de classer les méthodes statistiques en deux groupes
dont les méthodes descriptives (statistique descriptive) et les méthodes inférentielles
(statistique mathématique ou inférentielle).
Posséder une compétence reconnue en statistique permet de travailler dans la plupart des
secteurs et des domaines d’activités et de recherche. Il peut s’agir des domaines comme: les
sciences sociales, la politique, le commerce, la démographie, l’environnement, la santé, le
marketing, la finance, la télécommunication, l’informatique…
2- vocabulaire de la statistique
Etant une discipline, la statistique possède aussi un vocabulaire que tout apprenant doit
maitriser. Il s’agit des termes ou « mot » que l’on finit par maitriser facilement à force de les
utiliser.
Exemple 1.3 :
1. Une étude, dans un village, portant sur le nombre d'enfants à charge par ménage aurait
pour population statistique est l’ensemble des ménages de ce village.
Individu w ε Ω (ou unité statistique): tout élément de la population. Exemple : pour notre
étude sur le nombre d’enfants à charge par ménage, l’individu ou l’unité statistique est le
ménage.
Exemple 1.4 :
Supposons que l’étude portant sur le nombre d'enfants à charge par ménage est faite dans une
ville importante, il serait impossible d’interviewer tous les ménages. Dans ce cas, seulement
une partie de l’ensemble des ménages sera interviewée.
Recensement : enquête dans laquelle l’échantillon observé est la population toute entière
(enquête exhaustive).
Caractères et modalités
Le caractère est une qualité attachée à la population étudiée. Il est commun à tous les
individus de la population. Le terme variable est aussi souvent utilisé pour désigner un
caractère.
La modalité désigne les différentes valeurs que prend le caractère. C’est un critère qui permet
de classer les individus. L’ensemble des modalités d’un caractère doit être exhaustif ; c'est-à-
dire qu’il faut disposer d’une liste complète. Tous les cas de figure doivent être prévus et
incompatibles et chaque individu doit se placer dans une seule modalité.
Exemple 1.5:
Les caractères sont classés en deux grands types : caractères qualitatifs et caractères
quantitatifs
➢ Caractères qualitatifs
Un caractère est dit qualitatif si ses modalités ne sont pas mesurables. Les modalités, dans ce
cas, peuvent être constatées ou repérées par un nom ou un code. Ce type de caractère est
subdivisé en deux catégories dont le caractère nominal et le caractère ordinal.
Exemple 1.6:
Un caractère est dit quantitatif si ses modalités sont mesurables. Ce nombre est appelé
variable aléatoire. Les modalités d’une variable quantitative sont les différentes valeurs
possibles de la variable. Il existe deux catégories de variables quantitatives : les variables
discrètes et les variables continues.
Exemple 1.7:
On dit qu’une variable quantitative est discrète lorsque ses valeurs possibles sont isolées.
Exemple 1.8 :
L’effectif annuel des étudiants de la FDS de 2000 à 2013, le nombre de tête du rat, etc.
On dit qu’une variable quantitative est continue lorsqu’elle peut prendre n’importe quelle
valeur d’un intervalle donné de l’ensemble R des nombres réels.
Exemple 2.1 :
Dans le cadre d’une étude portant sur le nombre de plants infectés sur chacune des 50
parcelles concernées, les résultats obtenus sont notés comme suit.
2 3 0 1 0 1 4 2 2 0 1 6 2 3 0 4 3 2 2 6 1 1 0 2 1
1 0 3 2 1 3 3 1 4 0 4 2 1 6 0 3 4 2 1 2 4 1 1 1 2
La présentation et l’usage des tableaux statistiques obéissent à des règles usuelles qui
indiquent leur précision, facilitent leur utilisation et assurent la confiance en l’information
qu’ils contiennent. Pour cela les indications suivantes sont toujours recommandées et doivent
accompagnées un tableau statistique :
Définition de fréquence
n
f = ni i = 1, 2, , k.
i
L’effectif cumulé, noté Ni, est le nombre d’individus de la population ayant soit la modalité
A1 ou la modalité A 2 , ou la modalité A3 , ou la modalité....., ou la modalité Ai
N1 = n1; N 2 = n1 + n 2 ; N i = n1 + n 2 + + n i .
En considérant les définitions précédentes, on peut alors résumer les données d’une variable
qualitative dans un tableau de la façon suivante :
Une enquête faite auprès d’un groupe d’étudiant a donné les résultats consignés dans le
tableau 2.1 en annexe. Donner la répartition de ce groupe d’étudiants selon la région
d’obtention du BAC.
Fréquence Fréquence
Région d’obtention du BAC Comptage Effectif
(%) cumulée(%)
Lomé IIIIIIIII 9 18 18
Maritime IIIIIIII 8 16 34
Plateaux IIIIIIIIIII 11 22 56
Centrale IIIIIII 7 14 70
Kara IIIIIII 7 14 84
Savanes IIIIIIII 8 16 100
Total 50 100
Avec les logiciels, la colonne comptage n’apparait pas. En réalité cette colonne n’intervient
pas dans l’interprétation des résultats. Elle permet seulement de ne pas faire d’erreur lors de
dépouillement manuel. D’ou
Sur les 50 étudiants enquêtés, 22% ont obtenu leur BAC dans la région des Plateaux.
Le tableau statistique pour une variable quantitative discrète est le même que pour celui d’une
variable qualitative. La seule différence est qu’au niveau de la variable discrète on a des
valeurs numériques isolées. Ainsi le tableau formalisé résumant les données d’une variable
quantitative discrète se présente comme suit.
Exemple 2.3:
Tableau 2.5 : répartition des étudiants enquêtés selon le nombre d’années passé au Lycée
Nombre d’années passé au Lycée Effectif Fréquence(%) Fréquence cumulée(%)
3 31 62 62
4 15 30 92
5 4 8 100
Total 50 100
La plupart (62%) des étudiants du groupé qui a été enquêté ont affirmé qu’ils ont passé 3 ans au
Lycée. Ce tableau indique également que 92% de ces étudiants ont passé au plus 4 ans au Lycée.
Activité 2.2:
Donner la répartition des 50 parcelles visitées selon le nombre de plants infectés. Quelle est la
proportion des parcelles ayant au plus 3 plants infectés ? Quelle est la proportion de parcelles
ayant 4 plants infectés ?
La répartition des individus dans le cas des variables quantitatives continues se fait sous
forme d’intervalles à amplitudes égales ou inégales. Il est donc important de connaître les
amplitudes de ces intervalles ou classes. Le nombre de classes est généralement inférieur à 10.
• Amplitudes conventionnelles.
Il existe des cas naturels de variables continues où l’amplitude est intuitivement connue ou
imposée par l’étude. On peut citer le cas de la distribution d’individus par âge où l’on retient
traditionnellement des amplitudes de 5 ans ou 10 ans.
L1 = X min et L2 = L1 + E ; L3 = L2 + E ; L4 = L3 + E; L5 = L4 + E ; ...; Lk = Lk −1 + E
L1 = X min et L2 = L1 + E ; L3 = L2 + E ; L4 = L3 + E; L5 = L4 + E ; ...; Lk = Lk −1 + E
X max − X min
Dans ce cas l’amplitude E est déterminée par la formule de STURGES : E =
1 + 3,3log (n)
où n est le nombre total d’individus et log le logarithme décimal.
Dans ce cas le dénominateur de cette formule est interprété comme étant le nombre de classe
Le tableau statistique pour une variable continue se présente alors comme suit.
Tableau 2.5 : Répartition des individus enquêtés selon la variable X.
X Effectif Fréquence Fréquence cumulé
L1 , L2 n1 f1 =n1/n F1 = N1 / n
L2 , L3 n2 f 2 =n 2 /n F2 = N 2 / n
.
Li , Li +1 ni fi =n i /n Fi = N i / n
.
Lk , Lk +1 nk f k =n k /n 1
Total N
Exemple 2.5:
Tableau 2.6 : répartition des étudiants enquêtés selon les dépenses de déplacement journalier
Effectif Fréquence (%) Fréquence cumulée (%)
300 - 500 10 20 20
500 - 700 12 24 44
700 - 900 9 18 62
900 - 1100 8 16 78
1100-1300 7 14 92
1300-1500 4 8 100
Total 50 100
Le tableau indique que la majorité (24%) des étudiants interviewés déboursent un montant de
500 à 700 francs CFA pour leurs déplacements journaliers. Ce tableau indique également que
Activité 2.3 :
Un graphique doit être clair et simple. Il doit avoir un titre, une source, une légende et une
unité.
Pour un caractère qualitatif, on a deux types de graphiques : les diagrammes à secteurs, les
tuyaux d’orgues et les barres.
Sur le diagramme circulaire, chaque modalité est représentée par un secteur circulaire dont
l’angle est proportionnel à son effectif ou sa fréquence. Chaque secteur doit être différentié
des autres par un type de hachure ou par une couleur. L’angle de chaque secteur est obtenu
par la formule
360.n
i = 360. fi = i
n
Exemple 2.14 :
Insuffisant Passable
55,10% 15,14%
Assez bien
14,70%
Activité 2.6 :
Pour construire le diagramme en tuyaux d’orgues, on représente chaque modalité par un tuyau
dont la hauteur est proportionnelle à l’effectif correspondant ou à la fréquence
correspondante. L’ordre des tuyaux n’a pas de sens sauf peut-être pour les variables
qualitatives ordonnées.
Exemple 2. 15
55,10%
15,14% 14,70%
10,74%
4,32%
C’est une représentation dans un système d’axes cartésien où l’axe des abscisses porte les
différentes valeurs possibles ( x1 , x 2 , x 3 ,..., x k ) de la variable étudiée et les effectifs
( n1 , n 2 , n 3 ,..., n k ) ou les fréquences ( f1 , f 2 , f 3 ,..., f k ) sont portés par l’axe des ordonnées. Le
point ( xi , 0) et le point correspondant ( xi , n i ) sont joints par un segment vertical gras appelé
« bâton »
Exemple 2. 16 :
En reprenant le tableau 2.5, on peut établir la répartition de ces étudiants selon le nombre
d’années passés au Lycée en utilisant le diagramme en bâtons comme l’indique le graphique
2.3 ci-après.
Graphique 2.3: répartition du groupe d’étudiants enquêtés selon le nombre d’années passé
au Lycée
35
30
25
20
15
10
5
0
0 1 2 3 4 5 6 7
Activité 2.7 :
En utilisant le diagramme à bâton, faire la répartition des 50 parcelles visitées dans l’exemple
2.1 selon le nombre de plants infectés.
La fonction cumulative, notée F, d’une population étudiée selon une variable quantitative X,
est une fonction réelle qui à toute valeur x, fait correspondre la proportion F(x) des individus
de la population dont la valeur de la variable est inférieure ou égale à x
Exemple 2. 17:
Tableau 2.16: répartition étudiants enquêtés selon le nombre d’années passé au Lycée
Nombre d’années passé au Lycée Effectif Fréquence(%) Fréquence cumulée(%)
3 31 62 62
4 15 30 92
5 4 8 100
Total 50 100
Graphique 2.4: répartition étudiants enquêtés selon le nombre d’années passé au Lycée
1,2
0,8
0,6
0,4
0,2
0
0 1 2 3 4 5 6 7 8
Pour la variable quantitative continue, on suppose qu’on dispose d’un tableau statistique où
les individus ont été regroupés par classe. Pour illustrer graphiquement une variable
quantitative continue, on utilise souvent l’histogramme et la courbe cumulative.
Université de Lomé, FDS : Support du cours de Statistiques descriptives 2019-2020 14
[Link]- Histogramme
Pour la construction de l’histogramme, on distingue deux cas selon l’amplitude des classes:
Dans ce cas l’histogramme est l’ensemble des rectangles ayant pour base les segments
Li -1 , Li , i=1, 2,...,k et pour hauteur correspondante les effectifs n i ou les fréquences f i . Les
bornes L i des classes sont portées par l’axe des abscisses.
Tableau 2.17: répartition des clients d’une société selon le nombre de commandes
0,3
0,25
0,2
0,15
0,1
0,05
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
En considérant que l’importance de chaque classe est représentée par l’aire du rectangle
auquel elle correspond, on tient compte en même temps de l’effectif et de l’amplitude de
Exemple 2. 18:
Comme les classes n’ont pas la même amplitude, il faudrait déterminer les fréquences
corrigées. Pour cela nous supposons que lorsque Li -Li-1 = 500 étant la plus petite amplitude,
l’amplitude a i = 1 .
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0 1000 2000 3000 4000 5000 6000 7000
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0 2000 4000 6000 8000
Activité 2.8 :
Le polygone des fréquences généralement associé à l’histogramme est la ligne brisée qui joint
les points (c1 -a1 ;0), (c1;f1 ), (c 2 ;f 2 ),..., (c k ;f k ), (c k +a k ;0) .
0,3
0,25
0,2
0,15
0,1
0,05
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
Ordonnées Polygône
F( xi ) = Fi ; F( x) = 0, si x x0 ; F( x) = 1, si xk x
Ainsi, les valeurs de F, pour des observations groupées, sont inconnues à l’intérieur des
intervalles ouverts xi-1 , xi i = 1, 2, …, k.
Par convention, ces valeurs sont alors approximées par interpolation linéaire comme suit :
Exemple 2. 20:
1,2
1
0,8
0,6
0,4
0,2
0
-0,2 0 500 1000 1500 2000 2500 3000 3500 4000 4500
Activité 2.9 :
Quelque fois, il est plus expressif de parler de la proportion des individus de la population
dont la valeur de la variable étudiée est supérieure à une limite donnée. Par exemple, quelle
est la proportion des étudiants dont la moyenne dépasse 15 sur 20 ou bien quelle est la
Définition
Soit une population étudiée selon une variable quantitative X, la fonction cumulative
décroissante, notée G, fait correspondre à tout nombre réel x, la proportion G(x) des individus
de la population dot la valeur de la variable est strictement supérieure à x.
Par définition on :
G( x ) + F( x) = 1 pour tout x.
D’où
x- x
G( x) = Gi-1 − x - i-1 x i-1 <x x i
x .(G i-1 -G i )
i i-1
1,2
0,8
0,6
0,4
0,2
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500
Graphique 2.11: les deux courbes cumulatives dans un repère cartésien décroissante
1,2
0,8
0,6
0,4
0,2
-0,2 0 500 1000 1500 2000 2500 3000 3500 4000 4500
Il s’agit dans ce chapitre de définir un nombre ou une caractéristique qui résume toute
l’information et qui est précisément, une fonction des observations individuelles, au sens
mathématique. Ces nombres ou caractéristiques qui résument les observations individuelles se
classent en plusieurs types dont :
Les valeurs de la tendance centrale sont la moyenne, la médiane, le mode et les quantiles.
3.1.1- Moyenne
C’est l’une des caractéristiques les plus utilisées en statistique. Elle peut remplacer chaque
valeur de la variable étudiée. Il existe deux types de moyennes : la moyenne simple et la
moyenne pondérée. La moyenne simple est calculée à partir des données non regroupées et la
moyenne pondérée est obtenue à l’aide d’un regroupement. Pour chaque type, on calcule
généralement la moyenne arithmétique, la moyenne géométrique, la moyenne harmonique et
la moyenne quadratique.
[Link]- Définition
Soit un échantillon de taille n étudié selon la variable X. Après la collecte des données sur cet
échantillon on disposera alors de n observations individuelles ( X1 , X 2 ,..., X n ) et la moyenne
s’obtient à partir de la formule comme l’indique le tableau suivant :
Tableau 3.1:
Moyenne simple Moyenne pondérée
1 n 1 k
Moyenne X= Xi X= n i Xi
arithmétique n i=1 n i=1
G= n X1X2 ......X n = ( X1X 2 ......X n ) ( )
Moyenne 1/n 1/n
G= n X1n1 X n2 2 ......X nk l = X1n1 X n2 2 ......X nkl
géométrique
n n
Moyenne H= n
H= k
1 ni
harmonique X
i=1
i=1 X i
i
1 n 2 1 k
Xi n i Xi2
Moyenne
Q= Q=
quadratique n i=1 n i=1
k est le nombre de valeurs différentes de la variable dans le cas d’une variable discrète ou le nombre
de classes s’il s’agit d’une variable continue et ni le nombre de fois que X i a été observé. On a
l
n = ni
i=1
NB :
1. Dans le cas d’une variable continue, X i dans la formule de la moyenne est remplacé par
C i qui est le centre de la classe i.
1 n a
Ma = a X
n i=1 i
Pour obtenir les différentes formules des moyennes décrites dans le tableau 3.1, il suffit de remplacer
le paramètre a par les différentes comme l’indique le tableau 3.2. Il faudrait se rappeler que lorsque a
est égal à zéro, il s’agira de déterminer la limite de Ma lorsque a tend vers zéro.
Tableau 3.2:
a -1 0 1 2
Moyenne harmonique Géométrique arithmétique quadratique
Activité 3.1:
Tableau 3.3:
15,9 10,3 15,5 15,8 18,5 18,2 12,2 12,6 15,6 12,7
12,7 10,6 12,9 12,5 10,6 18,3 18,7 18 12,4 10
Tableau 3.4:
C’est la formule la plus utilisée. Si aucune précision n’est faite alors pour déterminer la moyenne
d’un caractère, on utilise en général, la formule de la moyenne arithmétique.
Exemple 3.1 :
4 3 5 3 5 4 3 4 4 5 5 4 4 3 3 4 3 4 5 5
Déterminer le nombre moyen d’année passé au Lycée pour les 20 étudiants interviewés.
Solution
1 n
• Moyenne simple X= Xi
n i=1
4+3+5+3+5+4+3+4+4+5+5+4+4+3+3+4+3+4+5+5
X= =4
20
1 k
• Moyenne simple X= n i Xi
n i=1
6x3+8x4+6x5
X= =4
20
Exemple 3.2
Calculer la moyenne arithmétique pour les ouvriers d’une usine dont le salaire (en millier de francs
CFA) est réparti comme suit :
24
Solution
Ici la formule adaptée est la formule de la moyenne pondérée car les données sont déjà regroupées.
1 k
X= n i Xi
n i=1
On constate que les X i (salaires individuel) ne sont pas donnés. Seuls les intervalles de salaire sont
donnés. Par exemple selon le tableau 3.5, on sait 22 ouvriers de cette usine ont un salaire compris
entre 80 et 100 mille.
Dans ce cas on remplace les X i par les C i (centres des classes). D’où le tableau 3.6 suivant :
Tableau 3.6:
P1 : La somme des écarts des valeurs de la variable par rapport à la moyenne arithmétique est nulle.
n
Cette propriété se traduit par la formule suivante : (X -X)=0
i=1
i
25
P5 : La moyenne arithmétique rend minimale la somme des carrés des écarts par rapport à u (u un
n n
réel quelconque): s(u)= (Xi -u)2 . C'est-à-dire que pour tout nombre réel, s(u)> (Xi - X )2 . Cette
i=1 i=1
propriété signifie que si on prend comme distance totale entre le nombre u et les
valeurs X1 , X 2 ,..., X n , la sommes des carrés des écarts s(u) , la moyenne est la plus proche avec cette
distance.
P6 : La moyenne d’un mélange de deux populations étudiées selon le même caractère X, est égale à
la moyenne pondérée par leurs tailles de leurs moyennes. C'est-à-dire
n1 X1 +n 2 X 2
X=
n
Activité 3.1 :
2- Le Directeur veut ramener le salaire moyen à 130000. Proposer lui deux solutions possibles.
Expliciter clairement ces propositions.
La moyenne géométrique est la formule utilisée pour le calcul du taux d’accroissement moyen d’une
grandeur entre deux instants. Pour le voir, supposons donnée une série d’observations temporelles :
y0 , y1, y 2 ,..., y t ,...., yT où t désigne le temps. Pour des séries économiques, t désigne par exemple le
mois, le trimestre, le semestre, l’année, etc. La grandeur subit une variation entre deux instants t et t’
( t t ' ), pouvant être mesurée par son accroissement relatif ou taux d’accroissement r égal à :
t ,t'
y −y
r = t' t
t ,t ' yt
Le taux d’accroissement moyen de la grandeur y entre les instants t = 0 et t = T, noté r, est le taux
constant qui aurait donné la même variation de y entre ces deux instants.
Calcul de r
y1 = (1 + r ) y0
y2 = (1 + r ) y1
: y
(1 + r )T = T ( 3.3 )
yt = (1 + r ) yt −1 y0
:
yT = (1 + r ) yT −1
Les développements ci-dessus sont surtout destinés à faire éviter aux étudiants une erreur souvent
commise, due à l’ignorance que le taux d’accroissement moyen n’est pas la moyenne arithmétique
des taux d’accroissement relatifs. Cependant, quand les taux d’accroissement relatifs sont faibles par
rapport à l’unité, le taux d’accroissement moyen peut être approximé valablement par la moyenne
arithmétique des taux d’accroissement relatifs.
Exemple 3.3
Déterminer le taux d’accroissement moyen relatif aux taux d’accroissement du tableau suivant.
Tableau 3.7:
27
Exemple 3.4 :
Une petite usine abrite 2 machines. La première machine a produit 500 pièces à la vitesse de 100
pièces par heure. Une seconde machine a produit 300 pièces à la vitesse de 60 pièces par heure.
Calculer la vitesse moyenne (exprimée en nombre de pièces par heure) de production dans l'usine.
Solution
On sait que
Le nombre total de pièces produites = le nombre de pièces produites par la première machine
+ nombre de pièces produites par la deuxième machine
= 500 + 300
= 800
800
Vitesse moyenne = = 80
500 300
+
100 60
3.1.2- mode ( M 0 )
Le mode d’une variable correspond à la modalité ayant l’effectif le plus élevé. Sa détermination
varie selon que la variable soit discrète ou continue.
Exemple 3. 5:
Le tableau ci-dessous a été obtenu après un dépouillement du nombre de têtes de bœuf disponibles
auprès de 50 éleveurs. Déterminer le mode.
28
Le mode est 20 têtes. C'est-à-dire que la plupart des éleveurs ont 20 têtes de boeuf.
Dans ce cas, on détermine d’abord la classe modale ; c'est-à-dire la classe dont l’effectif est le plus
élevé. Ensuite on détermine le mode à l’aide de la formule
(n0 − n1 )
M 0 = L1 + K
(n0 − n1 ) + (n0 − n2 )
où
d1
M 0 = L1 + K
d1 + d2
Exemple 3. 6:
Tableau 3.9:
Salaire en millier Effectif Fréquence (%)
80-100 22 17,60
100-120 30 24,00
120-140 45 36,00
140-160 18 14,40
160-180 10 8,00
Total 125
La classe modale est [120-140[ ; L1=120 ; K=20 ; n0 = 45; n1 = 30; n2 = 18 . On d1= 15 et d2=27
29
d2
Le mode peut aussi se déterminer par le formule : M 0 = L2 − K . Il suffit de remarquer dans la
d1 + d 2
formule précédente que L2 = L1 + K .
Lorsque la variable étudiée est continue, on peut utiliser son histogramme pour déterminer le mode.
Graphique 3.1
3.1.3- médiane ( M e )
La médiane d’une variable est la valeur de cette variable qui partage l’échantillon en en deux parties
égales. Lorsqu’on dispose d’une série, la médiane est la valeur qui partage cette série, préalablement
classée, en deux séries aux effectifs égaux. Dans la première série, on trouve les valeurs inférieures à
la médiane. Dans la seconde série on trouve les valeurs supérieures à la médiane.
Exemple 3.7 :
Les séries suivantes renferment le nombre d’heures de cours suivies par respectivement 5 et 6
étudiants. Déterminer les médianes.
10 0 7 3 4 9
4 10 0 3 7
Exemple 3.8 :
Le procédé est basé sur les effectifs cumulés Ni ou les fréquences cumulés Fi.
30
La médiane est alors la première modalité pour la laquelle la fréquence cumulée est supérieure ou
égale à 50%. Dans ce cas Me=20 tête de bœufs.
Si l’on a plutôt utilisé les effectifs cumulés alors la médiane est la première modalité pour laquelle
l’effectif cumulé est ou égal à la moitié de la taille de l’échantillon.
Dans ce cas, à l’aide d’un regroupement par classes, on peut déterminer la classe médiane puis la
médiane en utilisant la formule suivante :
(50 − F1 )
M e = L1 + K où
fe
n
− N1
M e = L1 + K où
2
ne
Exemple 3.9 :
Tableau 3.11:
Salaire en millier Effectif Fi Fi
80-100 22 17,6 17,6
100-120 30 24,0 41,6
120-140 45 36,0 77,6
140-160 18 14,4 92,0
31
La classe médiane est [120-140[ donc L1=120 ; F1=41,6 ; fe=36 et K=20. D’où
50 − 41, 6
M e = 120+20. =124,667 ; ce qui veut dire que 50% des ouvriers ont un salaire inférieur à
36
124667.
Graphique 3.2
Me
3.1.4- quantiles
Tout comme la médiane qui divise l’échantillon en deux parties égales, on peut aussi déterminer
trois valeurs qui divisent l’échantillon en quatre parties égales ; 9 valeurs qui divisent l’effectif en 10
parties égales ou 99 valeurs qui divisent l’effectif en 100 parties égales et ainsi de suite.
Il est possible d’obtenir une formule analogue à celle de la médiane. En effet, si nous voulons diviser
notre effectif en p parties égales, il nous suffit de trouver p-1 valeurs correspondant respectivement
aux fréquences cumulées suivantes :
1 2 3 p −1
100% ; 100% ; 100% ; ......; 100% . Ce qui peut être généralisé sous la
p p p p
j
forme 100% ; j = 1; 2;..... ; p − 1 . Par analogie à la formule de la médiane, ceci revient à
p
j
100 p − F1
déterminer les valeurs de la forme : L1 + K
fe
Ainsi si nous voulons partager l’effectif total en 4 parties, on calculera les 3 valeurs pour p=4 et j=1 ;
2 ; 4. Ces valeurs sont appelées les quartiles et notées Q1, Q2 et Q3 ; respectivement appelées 1er
quartile, 2ème quartile et 3ème quartile.
Q1 = L1 + K
( 25 − F1 ) ; Q2 = L1 + K
(50 − F1 ) ; Q = L1 + K
( 75 − F1 )
3
fe fe fe
32
Remarque : Les quantiles peuvent être obtenus à l’aide d’un raisonnement avec les effectifs
j
n p − N1
cumulés. Dans ce cas, la formule générale devient : L1 + K .
ne
1- Déterminer p
2- Déterminer la valeur de j
3- Identifier la classe qui contient le quantile. Cette classe est la 1ère pour laquelle la fréquence
j
cumulée est supérieure à 100%
p
4- L1 est la borne inférieure de la classe qui contient le quantile.
5- K est l’amplitude de la classe qui contient le quantile
6- F1 est la fréquence cumulée de la classe qui précède celle qui contient le quantile
7- fe est la fréquence de la classe qui contient le quantile.
Remarque : Me = Q2 = D5 = P50
Activité 3.2 :
Reprenez le tableau 3.11 et déterminer le 1er et le 3ème quartiles ; le 3ème et le 7ème déciles ; le 10ème et
le 75ème percentiles. Donner les interprétations.
3.2.1- étendue
L’étendue d’une variable X est donnée par e = X max − X min . Elle donne une indication sur le
domaine de variation de la distribution mais ne tient pas compte de la répartition des individus sur le
domaine.
Sa définition est simple : l’intervalle interquartile noté IQ, mesure l’étendue des 50% de valeurs
situées au milieu d’une série de données classées. Il est déterminé par la formule :
IQ = Q3 − Q1
1 l
Si les données sont regroupées alors on parle d’écart absolu moyen pondéré ( Ex = ni X i − x ).
n i =1
Dans la pratique le réel x est une caractéristique de tendance centrale. On choisi généralement le
mode, la moyenne ou la médiane. On note alors
1 n 1 n 1 n
EX =
n i =1
X i − X ; EM 0 = X i − M 0 ; EM e = X i − M e . Le plus utilisé est E X
n i =1 n i =1
L’écart absolu moyen a pour intérêt de prendre en compte la répartition des individus. Plus la
population est concentrée autour de x, plus E x est faible. Dans le cas contraire, E x est élevé.
La variance d’une variable statistique X est définie par = ( X i − X ) . Si les données sont
1 n 2
X
n i =1
2
Var ( X ) = X2 = X 2 − ( X )
1 n 2
Xi .
2
où X2 =
n i =1
Propriété de la variance
34
Des propriétés de la variance, on déduit facilement les propriétés suivantes pour l’écart type.
( X +b ) = X ( aX ) = a X ( aX +b ) = a X
Lorsque le CV est inférieur à 33%, on conclut que les données sont homogènes.
Activité 3.3 :
1- Calculer E X et EMe
Activité 3.4
On connaît les salaires mensuels bruts (en milliers de CFA) des employés de la même entreprise, à 5
ans d’intervalle (voir le tableau3.12). On veut savoir si la dispersion des salaires à augmenté.
Tableau 3.12:
Salaires effectif (2005) effectif (2010)
100-200 40 56
200-300 70 118
300-400 80 92
400-500 5 10
500-1000 5 4
Graphique 3.3
35
Une distribution peut donc être soit étalée à gauche ou à droite de la distribution normale centrée et
réduite ou soit plus aplatie ou moins aplatie que la distribution normale centrée et réduite.
Graphique 3.4
1 n r
Définition : On appelle moment non centré d’ordre r d’une variable X, la quantité m(r ) = Xi .
n i =1
1 l
Les moments pondérés non centré sont de la forme m(r ) =
n i =1
ni X ir
36
(4)
2 = −3
4
Activité 3.5 :
M
2 − M1
Mle = L1 + k où
me
37
Remarque
Mle − M e Mle − M e
ie = =
e X max − X min
38
Le plus souvent dans les études statistiques, on est amené à étudier la population selon plusieurs
variables. Les tableaux croisés permettent de voir comment la population étudiée se répartit selon les
variables.
Les tableaux croisés sont appelés ainsi car ils « croisent » deux distributions au sein d’un même
tableau. Ils sont appelés aussi tableaux à double entrée.
On considère une population constituée de n individus que l’on veut étudier selon deux variables X
et Y. Ces variables peuvent être qualitatives, quantitatives discrètes ou quantitatives continues.
Notations.
➢ ni j appelé l’effectif de la case (i, j), est le nombre d’individus ayant simultanément les
modalités (ou valeurs) Ai et Bj.
J
➢ Le total des effectif de la ligne n° i est donné par n i . = n i1 + n i2 + + n iJ = nij
j=1
I
➢ Le total des effectif de la colonne n° j est donné par n. j = n1j + n 2j + + n Ij = nij
i=1
Après avoir précisé ces notations on peut à présent donner une présentation formalisée d’un tableau
croisé à deux dimensions ou tableau à double entrée.
Y B1 B2 . . . Bj . . . BJ Total
X
A1 n11 n 12 . . . n1 j . . . n1J n1.
A2 n 21 n 22 . . . n2 j . . . n 2J n 2.
. . . . . .
. . . . . .
39
Exemple 4.1:
Répartition des diamètres des troncs des espèces végétales (kapokier) selon le nombre d’années
d’existence.
Tableau 4.2: Répartition des diamètres des troncs des espèces végétales (kapokier) selon le nombre
d’années d’existence.
Y 1 2 3 4 total
X
[80,100[ 3 4 11 19 37
[100,120[ 5 0 9 5 19
[120,140[ 4 1 7 4 16
[140,160[ 10 0 6 2 18
[160,180[ 6 2 37 0 45
Total 28 7 70 30 135
Activité 4.1.:
Dans la pratique les tableaux des effectifs sont peu utilisés par rapport aux tableaux des fréquences.
L’interprétation devient encore plus intéressante lorsqu’elle est faite en termes de proportion ou
fréquence.
Définition : fréquence f ij
n ij
On appelle fréquence f i j , de la case (i, j), la proportion : f i j = . C’est la proportion des individus
n
de la case (i, j).
Exemple 4.2:
Tableau 4.3: Répartition des diamètres des troncs des espèces végétales (kapokier) selon le
nombre d’années d’existence
Années
1 2 3 4 total
Diamètre
[80 , 100[ 2,22 2,96 8,15 14,07 27,41
40
Le tableau indique que 4,44% des kapokiers ont une année d’existence et ont un diamètre compris
entre 160 et 180 cm.
Activité 4.2:
❖ Distribution marginale
J
Fréquence marginale de la ligne n° i : f i . = fij
j=1
I
Fréquence marginale de la colonne n° j : f . j = fij
i=1
ni. n. j
Il est facile de savoir que f i. = et f. j = .
n n
Des effectifs n ij et des fréquences f i j d’une distribution selon deux variable X et Y, on peut établir
les deux distributions selon chacune des variables. Ainsi, n i . et f i . sont l’effectif et la fréquence
des individus de la modalité A i . Ces deux séries de nombres définissent ce qu’on appelle la
distribution marginale selon la variable X et permettent de dresser le tableau correspondant. De
même, n . j et f . j définissent la distribution marginale selon la variable Y.
Tableau 2.10 : Distribution marginale selon Tableau 2.11 : Distribution marginale selon
la variable X la variable Y
X Effectif Fréq. Y Effectif Fréq.
A1 n1 . f1 . B1 n.1 f. 1
A2 n2 . f2 . B2 n. 2 f. 2
. . . .
. . . .
Ai ni . fi . Bj n. j f. j
. . . .
41
Exemple 4.4:
En utilisant les effectifs marginaux de l’exemple 4.1 on obtient les distributions marginales comme
suit :
Tableau 2.11 : Distribution marginale des Tableau 2.12 : Distribution marginale des
kapokiers selon leur diamètre kapokiers selon le nombre d’années
X Effectif Fréq. d’existence
[80 , 100[ 37 27,41 Y Effectif Fréq.
[100,120[ 19 14,07 1 28 20,74
[120,140[ 16 11,85 2 7 5,19
[140,160[ 18 13,33 3 70 51,85
[160,180[ 45 33,33 4 30 22,2
Total 135 100 Total 135 100
❖ distributions conditionnelles.
Alors que les distributions marginales ne sont que les répartitions des individus selon l’une des deux
variables, indépendamment de la liaison qui peut exister entre X et Y, les distributions
conditionnelles constituent une première approche de l’étude de la liaison entre les deux variables.
A partir d’un tableau à double entrée, on peut construire deux tableaux de distributions
conditionnelles :
Définitions.
ni j
La proposition f j / i = est appelé fréquence conditionnelle de la modalité B j de la seconde
ni .
variable sachant que la première variable a la modalité Ai .
n ij
La proportion f i / j = est la fréquence conditionnelle de la modalité Ai de la première variable
n. j
sachant que la seconde variable a la modalité B j .
La lecture du tableau 4.5 indique que plus de la moitié (51,35%) des kapokiers ayant un diamètre
compris entre 80 et 100 cm ont 4 années d’existence alors qu’aucun kapokier parmi ceux qui ont un
diamètre supérieur ou égal à 160 cm n’a plus de 4 années d’existence.
Tableau a Tableau b
X 28 31 34 38 52 32 21 25 36 40 X 2 4 7 6 5 6 4 7 3 2
Y 37 38 40 45 50 39 31 35 41 44 Y 1 2 2 4 7 7 6 5 4 5
Tableau c Tableau d
X 1 2 4 1 5 6 4 7 3 2 X 1 2 1 2 3 3 4 4 5 5
Y 2 4 6 1 6 4 6 1,5 5 4 Y 1 2 2 4 3 4 6 5 6 7
43
44
xi ( yi − Y )
n
y (x − X )
n
i i
r( X ,Y ) = i =1
et r ( X , Y ) = i =1
n n n n
( x − X ) ( y −Y ) ( x − X ) ( y −Y )
2 2 2 2
i i i i
i =1 i =1 i =1 i =1
Dans le cas de deux variable X et Y, l’on peut constater que le nuage de points semble décrire une
droite dans le plan. Le but de la régression linéaire est de déterminer l’équation de cette droite. En
supposant que Y est la variable expliquée, alors l’équation de cette droit s’écrit :
yi = a + bxi + i où
45
xi comme valeur de la variable explicative observée. L’équation yˆi = a + bxi est appelée
équation de la droite de la régression linéaire simple. Déterminer cette équation revient à déterminer
alors les valeurs des paramètres a et b. Ce qui se fait soit par les méthodes graphiques soit par les
méthodes analytiques. Si aucune précision n’est faite, on utilise toujours les méthodes analytiques.
4.2.1 - La méthode graphique
Plusieurs méthodes graphiques sont utilisées notamment la méthode de Mayer ou de la double
moyenne et la méthode de médiane- médiane. Les étudiants sont invités à faire de recherche sur la
méthode médiane-médiane.
Méthode de Mayer
Elle consiste d’abord à diviser la série de données en deux groupes égaux (ou presque égaux si le
nombre d’observations est impair) puis à calculer pour chacun d’eux un point moyen. Enfin, on
trace la droite qui rejoint ces deux points.
Les étapes à suivre pour estimer la droite de régression à l’aide de la méthode de Mayer :
✓ Placer les coordonnées en ordre croissant des abscisses et créer deux groupes égaux (si possible).
✓ Pour chacun des deux groupes, trouver la moyenne des abscisses et la moyenne des ordonnées
que l’on notera P1 ( x1 , y1 ) et P2 ( x2 , y2 ).
✓ Déterminer la droite de régression passant par ces deux points. C'est-à-dire calculer
y2 − y1
(3.3) b= et a = y1 − bx1 = y2 − bx2 .
x2 − x1
Exemple 4.6 : Dans le but de déterminer la relation qui existe entre le Revenu mensuel des étudiants et
leur consommation, une enquête a été réalisée auprès de 10 étudiants de la FDS. Les données sont en
milliers de francs CFA.
Revenu (R) 30 44 45 65 30 35 39 40 50 60
Consommation
20 28 30 32 22 25 26 25 32 35
(C)
46
30+30+35+39+40 20+22+25+26+25
x1 = = 34,8 y1 = = 31,4
5 5
On fait de même pour le deuxième groupe : x2 = 52,8 et y2 = 31,4
Ainsi P1 (34,8 ; 23,6) et P2 (52,8; 31,4)
3- détermination de la droite
y2 − y1 31,4 − 23,6
b= = = 0,43 a = y1 − bx1 = y2 − bx2 = 8,7 d’où Cˆi = 0,43Ri + 8,7
x2 − x1 52,8 − 34,8
47
minimum. Pour cela, on considère que S est une fonction à deux variables a et b. Pour déterminer
son minimum, il faut donc annuler les dérivées partielles de S par rapport à a et à b. On a :
S n
n n
= −2( yi − a − bxi ) = −2 yi − na − b xi et
a i =1 i =1 i =1
S n
n n n
= −2 xi ( yi − a − bxi ) = −2 xi yi − a xi − b xi2
b i =1 i =1 i =1 i =1
En annulant ces deux quantités, on trouve un système d’équations suivant :
n n
n n
i y − na − b xi = 0 na + b xi = yi
i =1 i =1 i =1 i =1
n n n
ou encore : n n n
C’est le système d’équations
x y −a x −b x = 0 a x + b x = x y
2 2
i i i i i i i i
i =1 i =1 i =1 i =1 i =1 i =1
normales.
a + bX = Y
Il peut se réécrire sous la forme :
aX + bX = XY
2
XY − X Y
La résolution de ce système donne : b= et a = Y − bX
X 2 −(X )
2
Cov( X , Y ) Y
On peut remarquer que : b = = r( X ,Y )
Var ( X ) X
Signification des paramètres a et b.
Le paramètre a est la constante du modèle. C’est la valeur de Y lorsque la valeur de X est nulle. Au
plan géométrique c’est l’ordonné du point où la droite d’équation coupe l’axe des ordonnées.
Le paramètre b est la variation moyenne de Y lorsque X augmente d’une unité. C’est la pente de la
droite d’équation déterminée. Ce paramètre a une interprétation très intéressante et parfois c’est son
signe qui est recherché.
Exemple 4.7: Déterminer la droite de régression linéaire du tableau de l’exemple 4.6 puis répondre
aux questions suivantes :
a- Représenter le nuage de points et la droite de régression dans un même repère.
b- Quel est la consommation moyenne d’un étudiant qui a un revenu de 53000 FCFA
c- De combien augmentera en moyenne la consommation d’un étudiant qui a un revenu
additionnel de 8500 FCFA ?
48
La corrélation linéaire entre X et Y est d'autant plus importante que D = r2 (appelé coefficient de
détermination) est proche de 1.
- Propriétés importantes
3.
On note que r indique le signe de la liaison et le R2 explicite la proportion de la variance qui pourrait
être expliquée si une relation entre les deux variables existait. Les fluctuations de la variable
dépendante sont expliquées et non causées par les mouvements de la variable indépendante.
FIN DU COURS
Annexe
Travaux Dirigé
Exercice 1
La répartition des élèves du lycée Descartes en fonction de la langue vivante étudiée est donnée
par le tableau suivant :
Langues Effectifs
Anglais 934
Allemand 351
Espagnol 205
Italien 69
Divers 41
Total 1600
1. Préciser la population étudiée, le caractère, sa nature et ses modalités.
2. Compléter le tableau avec les fréquences et les angles.
3. Représenter cette distribution par un diagramme à secteurs.
4. Préciser le mode du caractère. Quel est le pourcentage d’élèves qui n’étudient pas l’Anglais ?
Exercice 2
Lors d’une journée, on a relevé les âges de 20 personnes venant se présenter à l’examen théorique
du permis de conduire : 18, 19, 19, 23, 36, 21, 57, 23, 22, 19, 18, 18, 20, 21, 19, 26, 32, 19, 21, 20.
1. Préciser la population, l’échantillon et le caractère étudiés. Quelle est la nature de ce caractère ?
2. Déterminer la moyenne, la médiane, le mode, la variance, l’écart-type et l’intervalle interquartile
de cette distribution d’âges.
Exercice 3
La mensuration des élèves d’une classe a donné les résultats suivants (en centimètres) :
165 158 172 171 149 153 157 160 155 162 164 158 166 170 150 165
174 175 180 164 181 171 157 167.
On groupe ces mesures par classes d’amplitude 5 cm, la première étant [145,150[ et la dernière
[180,185[.
1. Indiquer dans un tableau :
(a) les classes
(b) les effectifs
(c) les effectifs cumulés croissants
(d) les effectifs cumulés décroissants
2. Donner la signification des valeurs de la 4e ligne du tableau.
3. Représenter graphiquement (sur le même graphique) :
(a) les fréquences
(b) les fréquences cumulées croissantes
(c) les fréquences cumulées décroissantes
Exercice 4
Une organisation non gouvernementale cherche à appuyer les groupements agricoles opérant dans
la culture du café. Elle mène une enquête dans ce sens et relève les quantités (en tonnes) de café
produites en fonction des financements (en millions de francs CFA). Les résultats sont les suivants :
1
159 178 181 158 170 169 158 190 154 181 164 150 154 157 172
163 169 178 182 187 164 165 161 167 172 152 160 166 169 180
189 173 170 150 158 164 151 165 177 159 157 172 176 179 185
168 167 157 173 157 184 179 153 160 162 158 182 180 150 171
1. En considérant les classes suivantes, présenter le tableau de dépouillement :
[150,155[ ; [155,165[ ; [165,175[ ; [175,180[ ; [180,185[ ; [185,195[.
2. Déterminer :
– la quantité moyenne de café produite ;
– la quantité de café fréquemment produite ;
– la quantité de café médiane produite ;
– la quantité de café telle que les 15 plus gros producteurs aient une production qui lui est
supérieure.
3. Déterminer la variation moyenne de production de café d’un groupement à un autre. Quel
est le nom de cette grandeur en Statistique ?
4. Calculer le coefficient de variation de cette distribution et dire si elle est homogène ou
hétérogène en vous basant sur le critère de Gauss.
Exercice 5
On donne la distribution de 35 élèves d’une classe selon leur nombre de frères.
Nombre de
0 1 2 3 4 5
frères
1
Nombre d’élèves 9 7 3 2 1
3
1. Établir le diagramme d’illustration de cette distribution.
2. Calculer les effectifs cumulés (croissants et décroissants) de cette série statistique.
3. Combien d’élèves ont :
(a) 2 frères au moins
(b) moins de 2 frères
4. Représenter graphiquement les fréquences cumulées de cette distribution
5. Déterminer la moyenne, la médiane et le mode de cette distribution.
6. Calculer l’écart-type et le coefficient de variation. Cette distribution est-elle homogène ?
Exercice 6
Un tour automatique produit des axes cylindriques. Les diamètres en (1/10 de mm), mesurés sur
un lot de 1000 pièces ont donné les résultats suivants :
[244 [246 [248 [249 [250 [251 [252 [254
Classes
;246[ ;248[ ;249[ ;250[ ;251[ ;252[ ;254[ ;258[
Effectifs 11 132 152 200 194 158 139 14
1. Préciser la population, l’échantillon, un individu et le caractère X étudiés. Quelle est la
nature de ce caractère ?
2. Tracer l’histogramme du caractère X.
3. Calculer la moyenne, la variance, l’écart-type, la médiane, le mode et l’intervalle interquartile du
caractère X.
2
Exercice 7
Afin d’établir un rapport éventuel entre l’âge et les loisirs, un psychosociologue enquête auprès
d’une population de 20 personnes et obtient les informations suivantes :
1 1 1 1 1 1 1 1 1 1 2
Sujet 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9 0
1 1 4 3 2 3 3 5 7 5 3 4 2 5 2 2 5 4 2 3
Âge X
2 4 0 5 6 0 0 0 5 0 0 5 5 5 8 5 0 0 5 5
Loisir Y S S C C S T T L L L T C C C S L L C T T
Notations : S=Sport ; C=Cinéma ; T=Théâtre ; L=Lecture.
1. Que représente la première ligne de ce tableau ? Sur combien de sujets l’enquête a-t-elle
porté ?
2. Combien a-t-on de variables ? Quel est le type de chaque variable ?
3. Pour chaque variable, dresser le tableau donnant les classes, les effectifs de chaque classe
et les fréquences.
4. Représenter les fréquences des variables X et Y à l’aide de diagrammes en bâtons.
5. Tracer le graphe de la fonction de répartition de X. Peut-on tracer celui de Y ? Expliquer.
6. Quel est le pourcentage des sujets :
(a) âgés de moins de 30 ans ?
(b) âgés d’au plus 30 ans ?
(c) âgés d’au moins 30 ans ?
(d) qui préfèrent le cinéma ?
(e) qui ne préfèrent pas la lecture ?
7. La différence des deux pourcentages calculés en (b) et (a) est-elle aussi un pourcentage ?
Comment l’interpréter ?
Exercice 8
La répartition de 60 personnes selon leur poids est donnée par le tableau suivant :
[48,52 [52,56 [56,60 [60,64 [64,68 [68,72
Poids en kg
[ [ [ [ [ [
Effec. 3 15 23 12 5 2
3
1. Tracer l’histogramme des fréquences relatif à cette série.
2. Tracer dans le même repère le polygone des fréquences.
Exercice 10
Une enquête auprès de 25 petites entreprises portant sur le nombre de salariés a donné les
résultats suivants :
4 9 1 3 3 5 4 4 4 1 13 5 5 9 3 5 1 4 5 5 5 13 3 5 9.
1. Présenter les résultats de cette enquête sous forme de tableau statistique.
2. Faire le diagramme des effectifs.
3. Calculer la moyenne de cette série.
Exercice 11
Exercice 12
Un contrôle des prix d’un même produit effectué sur 100 points de vente a donné les résultats
suivants :
Classes de prix Nombre de points de ventes
[855, 875[ 2
[875, 895[ 8
[895, 915[ 16
La répartition de la population active d’un pays par âge est donnée par le tableau suivant :
4
Age Nombre de
(en personnes
années) (en milliers)
15 à 25 890
25 à 30 410
30 à 35 370
35 à 40 370
40 à 45 320
45 à 50 290
50 à 60 360
60 à 70 190
1. Tracer l’histogramme des effectifs et le polygone des effectifs cumulés.
2. Déterminer graphiquement les quartiles.
Exercice 14
L’entreprise XM a fait une étude de ses technico-commerciaux employés à la vente des véhicules
neufs. Les âges se répartissent de la façon suivante :
20- 25- 30- 35- 40- 45- 50- 55-
Âges
25 30 35 40 45 50 55 60
Nombres de
3 9 12 12 6 3 1 1
salariés
Elle désire connaître :
1. la moyenne des âges.
2. l’écart-type.
3. les quartiles et l’écart interquartile.
4. le jugement que l’on peut porter sur cette répartition des âges des commerçiaux.
Exercice 15
Afin de préparer une annonce publicitaire sur la qualité exceptionnelle de son produit, le Directeur
Technique d’une firme de fabrication et de vente de pneus fait appel à votre service et met à
votre disposition les données suivantes sur la répartition des pneus selon la duré de vie exprimée en
milliers de kilomètres parcourus.
Exercice 17
On considère l’ensemble des notes obtenues par 50 étudiants après un examen de Statistique noté
sur 20.
11 10 08 03 12 13 09 12 09 12 09 12 16 11 11 08 05 13 14 14
06 12 14 07 11 10 10 02 15 12 10 07 13 11 07 08 10 13 09 01
14 11 19 09 04 10 08 09 06 07.
Exercice 18
Exercice 19
L’observation des prix et des quantités sur un marché de la tomate a donné les résultats suivants :
1 11 13
Quantités x en kg 20 35 50 70 90
0 0 0
1,7
Prix y au kg en e 5 3,75 2,75 2,25 1,25 0,8 0,5
5
Ainsi, une quantité de 35 kg de tomates est vendue au prix de 2,75 e le kg.
1. Représenter graphiquement le nuage de points.
Dans la suite de l’exercice, tous les résultats obtenus à la calculatrice seront donnés avec
quatre décimales.
4. Indiquer lequel de ces deux ajustements vous semble le plus judicieux (on justifiera la
réponse).
Exercice 20
On a monté une série d’expériences dans une unité pilote en vue d’étudier l’influence de la
température sur le rendement d’une réaction chimique sous une pression donnée. Les données
recueillies sont les suivantes (x est la température t - 60˚C ; y le rendement en %) :
1
x 1 2 3 4 5 6 7 8 9
0
1 1 1 1 1 2 2
y 4 6 8
1 2 5 6 8 1 2
Étudier la liaison entre y et x. On fera le graphique en « nuage de points » des valeurs de y en
fonction des valeurs de x. On construira la droite de régression de y en x et on donnera la valeur
du coefficient de corrélation linéaire ρxy.
Exercice 21
Soit le tableau suivant portant sur les ventes annuelles des produits cosmétiques et les dépenses
publicitaires.
5 25 70 45 11 60 100 7 15 20 55 75 80 90
Vente (V )
0 0 0 0 0 0 0 5 0 0 0 0 0 0
Dépense (P ) 3 5 7 6 6 8 3 4 4 6 7 7.5 7.5 8.8
1. Identifier la variable expliquée et la variable explicative.
2. Déterminer le coéfficient de corrélation de Pearson entre les deux variables.
3. Etablir une régression entre les deux variables en utilisant la méthode de Mayer.
Exercice 22
Exercice 23 :
Il a de cela quelques mois vous fûtes informés du démarrage du projet financé par Fund
Yati&Bithi intitulé «Renforcement des Capacités des élèves de CM1 en français et en calcul ».
Prévu pour une période de 5 ans, la première phase de trois ans dudit projet arrivera à terme à la
fin du mois de juillet 2010. Vous avez été recruté alors comme consultant pour procéder à
l’évaluation à mi-parcours d’un tel projet. Pour approfondir votre recherche, vous avez réalisé
une collecte des données auprès des élèves dont voici un extrait.
Moyenne générale (Y) 7.5 6.8 6.5 4.3 6.5 3.5 8.9 4.5 8.3 9 2.6 3.9
Moyenne en français (X) 5.8 5.9 5.2 4 5.6 5.3 8.6 7 6.3 8.9 2.3 4.9
Moyenne en calcul (Z) 7 5 5.9 4.3 4.6 5.3 4.8 5 9.3 7.6 5 3.6
1.1 On vous rappelle que l’étude base avait estimé les notes moyennes en français et en calcul à
respectivement 4.8/10 et 5.2/10. Utilisez les données du tableau pour mesurer l’effet du projet en
termes de proportion.
1.2 Calculer la corrélation entre Y et X puis entre Y et Z. Faire une interprétation.
1.3 Donner l’équation de la régression linéaire de Y sur X ou celle de Y sur Z. Interprétez.
1.4 Après cette analyse des données, on vous demande de formuler clairement trois (3)
recommandations au gestionnaire de projet.