Cours de Statistique Descriptive 2023/2024
Cours de Statistique Descriptive 2023/2024
DESCRIPTIVE
COURS et EXERCICES Année 2023/2024
CORRIGES
1
CHAPITRE I : GENERALITES ET DEFINITIONS .......................................................... 5
2
IV-2 TABLEAU DE CONTINGENCE EN FREQUENCES (RELATIVES OU
ABSOLUES) ........................................................................................................................... 62
Distributions marginales et conditionnelles ......................................................................... 63
L’INDEPENDANCE .............................................................................................................. 64
3
Dans l’environnement économique et commercial actuel, l’information statistique
disponible est vaste. Les dirigeants qui ont le plus de succès sont ceux qui peuvent comprendre
l’information et l’utiliser.
4
CHAPITRE I : GENERALITES ET DEFINITIONS
VOCABULAIRE STATISTIQUE
La statistique est une méthode générale de recherche, l'outil avec lequel on travaille une
matière première constituée par les « données statistiques ». Son but est d'étudier les
phénomènes pour permettre de prendre des décisions. La statistique est donc l’art et la
science de collecter, analyser, présenter et interpréter les données. Après une enquête, si
les informations chiffrées dont on dispose concernent l’ensemble de la population observée, les
décisions peuvent être prises sur la base de certains résultats d’où sont directement issus des
5
indicateurs ou autres. Au contraire, comme c’est généralement le cas, on peut disposer de
l’information exhaustive sur la population, on procède de la manière suivante :
(1)- on extrait de cette population un échantillon d’individus ;
(2)- on recueille les informations chiffrées relatives à cet échantillon ;
(3)- on produit certains résultats à partir de ces informations ;
(4)- on infère à partir de ces résultats leurs équivalents sur la population ;
(5)- on prend la décision à laquelle conduisent ces résultats induits sur la population.
L’information est donc la base de toute étude inductive et la fidélité de cette information doit
constituer le souci principal dans la collecte des données expérimentales. Les méthodes
statistiques permettent de synthétiser des résultats et d’induire des lois que l’on doit enregistrer
avec un certain degré d’approximation. Dans toutes statistiques, il est indispensable de donner
une définition claire, précise et stable des unités statistiques afin d’éviter des incompréhensions
et des erreurs, soit lors du rassemblement des données, soit lors de leur interprétation. Les
données sont les faits et les chiffres qui sont collectés, analysés et résumés pour être ensuite
interprétés. Les données collectées dans une étude particulière forment l’ensemble de données
de l’étude.
Variables : Une variable est une caractéristique des éléments à laquelle on s’intéresse.
Unité statistique : L’unité statistiqueest l’élément de l’ensemble que l’on veut étudier.
L’ensemble des unités statistiques est appelé ensemble statistique ou population statistique.
Caractères ou variables statistiques : On peut n'étudier que certaines propriétés des unités
statistiques, propriétés appelées caractères ou variables statistiques, propriétés distinctives des
unités statistiques d’une population. Exemple: taille, poids, nombre de défauts, effectifs d’une
usine. Le caractère, l’aspect de l’unité statistique que l’on retient dans l’analyse peut être:
6
Variable statistique : Dans le cas d’un caractère quantitatifon emploie généralement le
vocable de variable statistique qui est l’expression numérique du caractère observé sur les
unités statistiques considérées. La variable statistique est habituellement notée par une
majuscule : X par exemple. La variable statistique X est dite discrète lorsqu’elle ne peut
prendre que des valeurs isolées : x1 , x2 ,...., xm (où x1 x2 .... xm ) . Exemple : le nombre de
chevaux fiscaux d’une automobile. La variable statistique X est dite continue lorsqu’elle peut
prendre n’importe quelle valeur d’un intervalle [a, b]. Exemple : durée d’une conversation
téléphonique. Dans ce cas l’intervalle des valeurs possibles [a , b] est divisé en k intervalles : [
a0 , a1 [ , [ a1 , a2 [,...., [ak-2 , a k-1[ , [ ak-1 , a k ] (où a0 a a1 a2 .... ak b) qui sont appelés
classes.
Conclusion : Dans toute statistique, il est indispensable de donner une définition claire, précise
et stable des unités statistiques afin d’éviter des incompréhensions et des erreurs, soit lors du
rassemblement des données, soit lors de leur interprétation.
Enquête par sondage ou sondage d’opinion : Le sondage d’opinion est une procédure
d’enquête sur certaines caractéristiques d’une population à partir d’observations sur un
échantillon limité, considéré comme représentatif de cette population. Elle sert notamment à
étudier un marché potentiel pour le lancement d’un produit, à prévoir le comportement
politique avant une élection ou à estimer les paramètres inconnus de la population.
Définitions
8
Un échantillon de taille n est une liste de n individus (w1, w2,..,wn) extraite de la population
mère. On appelle échantillonnage le prélèvement d’échantillons. Le rapport tde l’effectif n de
l’échantillon à l’effectif N de la population, dans laquelle il a été prélevé, est appelé taux
n
d’échantillonnage ou fraction de sondage :t= . On appelle base de sondage la liste
N
exhaustive des unités statistiques ou individus de la population-mère.
• L’échantillonnage est dit non exhaustif ou avec remise lorsque chaque individu prélevé est
remis dans la population - mère avant le tirage de l’individu suivant.
• Lorsque le taux t d’échantillonnage aléatoire exhaustif est suffisamment petit (t< 0,1), on
peut assimiler l’échantillonnage exhaustif à un échantillonnage avec remise.
1ephase : préliminaire
9
Les enquêteurs doivent posséder les qualités requises (connaissances techniques, conscience
professionnelle, bonne psychologie) ; par ailleurs, ils doivent être recrutés, formés et encadrés
spécialement. Le questionnaire se caractérise par :
- Statistique : étude des faits pour comprendre les processus qui les engendrent et pour
faire ressortir certaines caractéristiques qui permettront par la suite de prendre des
décisions ;
- Données Statistiques : faits et chiffres qui sont collectés, analysés et interprétés ;
- Ensemble de données : toutes les données collectées pour une étude particulière ;
- Eléments : entités auprès desquelles les données sont collectées ;
- Variable : caractéristique d’intérêt des éléments ;
- Observation : ensemble des mesures obtenues pour un élément unique ;
- Données qualitatives : données qui fournissent des étiquettes ou des noms à une
caractéristique d’un élément. Elles peuvent être numériques ou non numériques ;
- Variable qualitative : variable dont les données sont qualitatives ;
- Données quantitatives : données qui indiquent la quantité de quelque chose. Elles sont
toujours numériques ;
- Variable quantitative : variable dont les données sont quantitatives ;
10
- Données en coupe transversale : données collectées à un même moment (ou presque)
dans le temps ;
- Données de série temporelle : données collectées à plusieurs moments successifs dans
le temps ;
- Statistiques descriptives : tableaux, graphiques et approches numériques utilisés pour
résumer des données ;
- Population : ensemble de tous les éléments considérés dans une étude particulière ;
- Echantillon : sous-ensemble de la population ;
- Inférence statistique : processus d’utilisation des données d’un échantillon pour estimer
ou tester des hypothèses sur les caractéristiques d’une population.
Les sigles utilisés sont à la fois simples et logiques : ils correspondent le plus souvent à la
première lettre de la notion concernée et chacun d’eux intéresse une seule notion (pour éviter
toute ambiguïté).
k
Effectif total
N n
i 1
i Somme pour l’indice i variant de 1 à
k
« Epsilon » ε …… La plus petite quantité possible
Abscisse du point M XM (ni)c Effectif ni cumulé
Ordonnée du point M Fréquence fi cumulée
YM (fi)c
Coefficient C Ci Coefficient pour l’indice i
11
Amplitude de la classe Amplitude variant selon i
(intervalle) a ai
Mode Fréquence maximale
Mo nmax (relative ou absolue)
Médiane Fréquence cumulée
Me N
(relative 0,5 ou absolue )
2
Percentile Percentile d’ordre 1
P P1 (ou premier percentile)
Décile Décile d’ordre 1
D D1 (ou premier décile)
Quartile Quartile d’ordre 1
Q Q1 (ou premier quartile)
Ecart-type Variance
2 ( l’écart-type)
(« petit sigma ») σ
Coefficient de variation Variance calculée sur la variable x
V x2
« Béta » β β1, et β2 Coefficient « Béta1 » et « Béta 2 »
Moment non centré Moment non centré d’ordre q
m mq
Moment centré (« mu ») Moment centré d’ordre q
µ µq (quelconque)
12
Partie I : Tri à plat : Distribution à un caractère
II.2 Représentation
Deux modes de représentation graphique sont généralement utilisés :
Diagramme à « secteurs » circulaires (dit « camnembert ») ou semi-circulaires et
représentations par « bandes », mais bien d’autres représentations sont possibles : Exemple 1 :
En 1999 les recettes du budget d’ANGOVILLE se présentaient de la façon suivante (en
milliards de francs) :
On doit partager 360º en secteurs proportionnels aux effectifs. Par exemple, l’effectif 5
360 5
correspond à un angle de : x 360 16, 667% 60 , d’où le tableau suivant :
30
Recettes 3 15 7 5 30
% 10% 50% 23,333% 16,667% 100%
Angles 36 180 84 60 360
Remarque : Pour avoir les différents angles il suffit de multiplier les différentes fréquences
relatives par 360 degrés :
13
Fig. II -1 : Représentation par secteur de la répartition des recettes du budget d’ANGOVILLE
selon leur origine.
Remarque: Dans le graphique circulaire, les secteurs représentatifs ont une aire et par
conséquent un angle au centre proportionnel aux effectifs (montants des recettes) des modalités
(sources des recettes) correspondantes. Le graphique est tracé à l’aide d’un rapporteur après
avoir calculé l’angle au centre relatif à chaque secteur.
Représentation par bande (ou tuyau d’orgue) : Les différentes modalités du caractère
(diverses sources de recettes du budget d’ANGOVILLE) sont représentées par des rectangles
dont la base est constante et dont la hauteur et l’aire par conséquent, sont proportionnelles aux
effectifs (montants des recettes). Très souvent les différentes modalités sont ordonnées sur le
graphique dans le sens des effectifs croissants ou décroissants.
16 15
14
12
10
8 7 Effectif
6 5
4 3
Fig. II-2 : Représentation par tuyau d’orguede larépartition des recettes du budget
d’ANGOVILLE selon leur origine.
14
Remarque : La représentation par secteur permet, mieux que les tuyaux d’orgue, de visualiser
l’importance relative (en %) de chaque source de recettes, importance figurée par la valeur de
l’angle au centre correspondant. Elle permet aussi d’établir des comparaisons entre plusieurs
faits observés du même phénomène dans l’espace et dans le temps.
Tableau statistique à simple entrée : On présente les couples (Ci, ni) de la manière suivante :
Ci C1 C2 . .C3 . . . . . . . . . . Ck
(Catégories ou Valeur xi de X)
k
Notons n l’effectif total : n = ni = n1 + n2 + n3 + ....+nk ;ni, l’effectif de la modalité Ci, aussi
i 1
ni
appelé fréquence absolue ; f i est la fréquence relative de la modalité Ci dans la
n
k
population. On a : fi = 1. Pour les caractères quantitatifs, on calcule l’effectif cumulé Ni’(x) =
i 1
i' i'
Dans le cas d’une variable discrète, le couple (Ci, ni) devient (xi , ni).
Dans le cas d’une variable statistique continue, on considère la classe Ci d’extrémités b i-1 , et bi
telle que bi 1 x bi ;
bi bi 1
- Le centre de la classe est xi ;
2
15
- L’amplitude de la classe Ci est ai = b i – b i-1 ;
ni
- La densité d’une classe bornée est d i (di est calculée lorsque les classes sont
ai
d’amplitudes inégales).
Une variable statistique est dite discrète lorsque ses valeurs possibles sont séparées (nombres
isolés en général des entiers). Exemple : le nombre d’enfants d’un couple; le nombre de pièces
d’un logement; le nombre d’employés d’une entreprise; les notes obtenues à un devoir.
7,7,7,8,8,10,10, 10,12,12,12,13,13,13,13,13,14,14,16,16
Notes 7 8 10 12 13 14 16
Effectifs (ni) 3 2 3 3 5 2 2
Effectifs cumulés 3 5 8 11 16 18 20
(Ni) (=3+2) (=5+3) (=8+3) (=11+5) (=16+2) (=18+2)
Fréquences (fi) 3 2 3 3 5 2 2
20 20 20 20 20 20 20
(= 15%) (= 10%) (= 15%) (= 15%) (= 25%) (= 10%) (= 10%)
Fréquences 3 5 8 11 16 18 20
20 20 20 20 20 20 20
cumulées (Fi)
(=15%) (=25%) (=40%) (=55%) (=80%) (=90%) (100%)
L’effectif cumulé qui correspond à la note 8 (par exemple) est la somme des effectifs des notes
inférieures où égales à 8 (ici égal à 5). L’effectif total est la somme des effectifs (ici égal à 20).
Les fréquences sont les quotients des effectifs des modalités par l’effectif total. Elles sont
exprimées souvent en pourcentage.
Représentation graphique
La représentation graphique des fréquences ou des effectifs est le diagramme en bâtons (des
effectifs). A chaque valeur xi de la variable, portée en abscisses, on fait correspondre un
segment vertical de longueur proportionnelle à l’effectif (ou à la fréquence) de cette valeur.
Tableau 2
16
Marque achetée Code des marques Effectifs (ni)
Coca-Cola 1 25
Coke light 2 11
Pepsi –cola 3 16
Djino 4 7
Sprite 5 6
Distribution de fréquence des données sur les boissons non alcoolisées construite par
Excel 2007
30
25
Fréquence
20
15
10 Fréquence
5
0
1 2 3 4 5 ou plus...
Code des marques
Diagramme en barre des données sur les boissons non alcoolisées construite par Excel 2007.
Une variable statistique est dite continue lorsqu’elle peut, dans un intervalle donné, prendre une
infinité de valeurs. Exemple: L’âge exact; le diamètre d’une pièce circulaire; le poids d’une
cargaison.
Représentation graphique
Dans le tableau statistique, les observations sont groupées par classes d’amplitudes constantes
ou variables. La représentation graphique des fréquences ou des effectifs est l’histogramme,
ensemble de rectangles contigus. Chaque rectangle, associé à chaque classe, a une surface
proportionnelle à la fréquence (absolue ou relative) de cette classe. Chaque classe est
représentée par un rectangle dont l’aire (et non la hauteur) est proportionnelle à la fréquence ou
à l’effectif de la classe.
a. Amplitudes égales
17
Taille t en mètre 1,30 t <1,40 1,40 t <1,50 1,50 t <1,60 1,60 t <1,70
Effectif (ni) 3 15 7 5
Représentation graphique
Les classes étant d’amplitudes égales, il suffit que chaque rectangle ait une hauteur
proportionnelle à la fréquence (relative ou absolue) de cette classe :
15
28
24
20
16
7
12 5
8 3
Fig. II-4 : Représentation par un histogramme de la répartition de la taille des étudiants; 2e AP,
1999.
Pour tracer la courbe des fréquences cumulées il faut tracer une courbe continue car le caractère
peut être considéré comme continu. Le cumul se fait pour chaque classe à la limite supérieure
de la classe. On considère que la répartition de la taille des étudiants est uniforme, ce qui
revient à tracer des segments.
b. Amplitudes inégales
Il faut construire des rectangles dont la hauteur est proportionnelle à la densité, ce qui permet
d’assurer une surface proportionnelle à la fréquence. Dans ce cas on ajoute une colonne « ai » =
amplitude et une colonne « hi » = hauteur corrigée du rectangle. La colonne ai permis de
visualiser les différentes amplitudes, et de repérer « l’amplitude unité » qui est généralement la
plus petite amplitude de la colonne.
18
L’amplitude unité, ici, est égale à 10 (parfois on la repère par le PGCD des amplitudes). La
colonne « hi » est construite de la façon suivante : on reporte les valeurs de fi ou de ni
correspondant aux amplitudes unités (ici, on reporte les valeurs de fi pour obtenir un
histogramme de fréquences relatives) ; et on divise la fréquence fi ou l’effectif ni par le rapport
des amplitudes quand elles ne sont pas égales à l’amplitude de l’unité.
ni 5 10 40 160 25 240
ai 10 10 20 40 10
ai 1 1 2 4 1
ri
a
fi 5 10 20 40 25
hi
ri
Remarque : Sans cette rectification l’histogramme aurait été faux ! Car il représente l’aire et
non la hauteur qui est proportionnelle à fi ou ni. La surface totale de l’histogramme n’est pas
modifiée par le regroupement des classes. Il y a « compensation des classes ».
Exemple 4 : Le tableau suivant retrace le nombre de taxis et les distances parcourues avant une
première panne:
19
Ci (milliers de km) 0-5 5-7 7-9 9-15 Total
Effectifs ( ni) 15 78 36 21 150
Ni 15 93 129 150
Ni 150 135 47 21
Dans le tableau précédent la troisième colonne par exemple s’interprète ainsi : 129 taxis ont
parcouru au plus 9000 km et 57 taxis ont parcouru au moins 7000 km avant d’avoir une
première panne. On en déduit le tableau suivant :
ti (millier de km) 0 5 7 9 15
Nombre de taxis ayant parcouru au plus ti (millier de km) 0 15 93 129 150
Nombre de taxis ayant parcouru au moins ti (millier de km) 150 135 57 21 0
Remarque : La Somme des effectifs de chaque colonne est égale à l’effectif total. Les données
ne nous permettent pas de déterminer par exemple le nombre de taxis ayant parcouru au moins
10 km.
b. Amplitudes inégales
Si les classes sont d’amplitude inégale, on trace également un polygone des fréquences en
prenant soin de tracer un polygone dont la surface soit toujours égale à celle de l’histogramme.
- Être définie de façon objective, c’est-à-dire sans que l’utilisateur puisse y adjoindre un
jugement personnel, ou que deux personnes différentes la calculant sur la même série
parviennent à des résultats différents ;
- Dépendre de toutes les observations de la série : elle ne doit pas, en ce sens, résumer
une partie de la série. Néanmoins, on écarte parfois dans le calcul les valeurs
« aberrantes » (exceptionnelles) pour ne pas fausser la réalité du phénomène ;
- Avoir une signification concrète facile à concevoir, pour être comprise par n’importe
quel utilisateur, même non-spécialiste ;
- Être simple à calculer ;
- Être peu sensible aux fluctuations d’échantillonnage : de façon par exemple à ne pas
obtenir des valeurs différentes si on l’applique sur plusieurs échantillons de la même
population. Ce problème est étudié en statistique mathématique (sondages) ;
- Se prêter aisément aux calculs algébriques de façon à pouvoir comparer plusieurs séries
par exemple ou dégager la caractéristique en plusieurs autres de nature connue.
1 n
- Moyenne arithmétique : M x xk
n k 1
21
1
n n
- Moyenne géométrique : G xk
k 1
1
1 n 2 2
- Moyenne quadratique : Q xk
n k 1
n
- Moyenne harmonique : H .
1
n
k 1 xk
Ces 4 moyennes simples peuvent prendre des formes élaborées. Aux éléments xk de l’ensemble
numérique X, on associe respectivement les éléments k N de l’ensemble de pondération A
n
1
- Moyenne arithmétique pondérée : Mp x
N
x
k 1
k k
1
n N
- Moyenne géométrique pondérée : G x k k
k 1
1
1 n 2
- Moyenne quadratique pondérée : Q k x k2
N k 1
N
- Moyenne harmonique pondérée : H .
n
k
k 1 x k
Remarque : Pour utiliser l’une de ces formules, on étudiera d’abord le phénomène répertorié
dans le tableau statistique.
22
Exemples: Pour cette série statistique (tableau 2), rappelons que la moyenne des notes
obtenues est le nombre défini par une moyenne arithmétique
k
X 1 ni xi
n
i 1
Pour le calcul de cette moyenne, on peut additionner les 20 notes puis diviser la somme par 20,
mais il est préférable de calculer la moyenne pondérée en utilisant le tableau suivant:
Notes xi Effectifs ni ni xi
7 3 21
8 2 16
10 3 30
12 3 36
13 5 65
14 2 28
16 2 32
Totaux 20 228
1,35 3 4,05
1,45 15 21,75
1,55 7 10,85
1,65 5 8,25
Totaux 30 44,90
44,90 m
La taille moyenne de la classe est t 1,50 m .
30
Calculons les différentes moyennes simples qu’on peut obtenir à partir du tableau suivant :
xi ln xi 1/xi x²i
2 0,693 0,5 4
5 1,609 0,2 25
8 2,079 0,125 64
23
9 2,197 0,111 81
11 2,397 0,091 121
35 8,975 1,027 295
35
Moyenne arithmétique : X 7;
5
8,975
Moyenne géométrique : ln G 1, 795 et G e1,795 6, 019 ;
5
5
Moyenne harmonique : H 4,869;
1, 027
295
Moyenne quadratique : Q 59 7, 681 .
5
On vérifie bien : H G M Q .
Calculons les différentes moyennes pondérées qu’on peut obtenir à partir du tableau suivant :
69
Moyenne arithmétique : X p 6,9 ;
10
17,836
Moyenne géométrique : ln Gg 1, 7836 et GP e1,7836 5,951 ;
10
10
Moyenne harmonique : H P 4,836 ;
2, 068
24
573
Moyenne quadratique : QP 57,3 7,570 .
10
On vérifie bien : Hp Gp Mp Qp .
Médiane
La médiane est la valeur du caractère qui occupe le milieu de la distribution statistique. Pour
une série classée, la médiane est la valeur du caractère qui partage la série en deux parties
d’égale fréquence (relative ou absolue). C’est donc la valeur du caractère pour laquelle la
1 1
fréquence cumulée est égale à : F ( M e ) (1). Dans le cas d’une variable discrète, il n’y
2 2
a généralement pas de valeur correspondant strictement à cette définition. L’interprétation de la
valeur trouvée est parfois incertaine car l’équation (1) n’a pas souvent de solution exacte.
- Détermination graphique
Pour une distribution donnée, on trace les courbes de fréquences cumulées. La médiane est
déterminée par l’intersection des deux courbes cumulées (croissante et décroissante) ou par la
valeur xi correspondant à la fréquence cumulée (½) ;
- Par calcul
a) Si la suite possède un nombre impair de termes soit (2k + 1), la médiane est constituée
par le (k + 1) ième terme.
b) Si la suite possède un nombre pair de termes soit (2k), la médiane est constituée par la
moyenne arithmétique du (k) ième et (k + 1) ième terme.
Exemple : (Tableau 6)
25
Trouver la médiane des distributions suivantes 0, 8,1, 4, 3, 3, 5, 7, 2 .
xi 0 1 2 3 4 5 7 8 Total
ni 1 1 1 2 1 1 1 1 9
Ni↑ 1 2 3 5 6 7 8 9
Remarque : Dans le cas discret la fonction de répartition est une fonction discontinue en
escalier. La courbe cumulative est donc constituée de paliers horizontaux et deux cas peuvent
se présenter :
2. un palier horizontal a pour ordonnée la valeur %, c'est-à-dire qu’il existe une valeur
observée xi telle que x xi 1 , xi , F ( x) % ; on convient alors de considérer comme quantile
Classe 0 à 5 5 à 10 10 à 30 30 à 50
Fréquence 1 2 3 4
Fréquence cumulée croissante 1 3 6 10
La médiane est la valeur Me du caractère qui correspond à l’effectif cumulé 5, donc elle sera
10 M e 30 M 10 30 10 20 2 20
telle que : e , donc M e 10 20,333 .
356 53 63 3 3
Les quartiles : Nous savons que la médiane scinde la série en deux demi-séries d’égale
fréquence (relative ou absolue). Si l’on détermine à nouveau la médiane de chacune des deux
demi- séries, on obtient le premier et le troisième quartile Q1 et Q3. Il vient immédiatement que
le deuxième quartile Q2 se confond avec la médiane. Les 3 quartiles Q1, Q2, Q3 , sont donc les
valeurs du caractère (x i) qui partagent la série en 4 sous ensembles égaux , comme le montre le
schéma ci dessous :
0________n/4________n/2________3n/4________n
Q1, Q2 , Q3
« Ecart- interquartile »
Ce sont les valeurs pour lesquelles l’ordonnée de la courbe cumulative des effectifs cumulés
N(x) ou celle des fréquences relatives cumulées F(x) soit respectivement égale à :
n n 3n 1 1 3
, , ou , , .
4 2 4 4 2 4 ,
n n 3n
En effet, on obtient : N (Q1 ) , N (Q2 ) , N (Q3 ) ou F(Q1) = 0,25 F(Q2) = 0,50
4 2 4
F(Q3) = 0,75 .
L’écart interquartile égal à (Q3 - Q1) contient 50 % des observations. Les calculs de
détermination des quartiles sont analogues à ceux de la médiane. Les quartiles précisent
l’asymétrie éventuelle d’une distribution statistique.
Les déciles : Les déciles divisent la série en dix parties d’effectifs égaux (d1,…, d9). Les
déciles, au nombre de neuf, séparent l’effectif de la série, préalablement ordonné par ordre
croissant en dix parties égales. Le premier décile D1 est tel que un dixième des observations lui
sont inférieurs, et d’une façon générale un dixième des observations sont comprises entre deux
déciles successifs :
27
L’écart interdécile égal à (D9 - D1), contient 80 % des observations. Les déciles se déterminent
de la même manière que les quartiles.
Les centiles : Les centiles sont les valeurs du caractère (x i ) qui partagent la série préalablement
ordonnée par ordre croissant en cent parties égales. Ils sont au nombre de 99 notés
respectivement P1, P2,..., P99.
Exemple : Étant donné la suite 7, 0, 4, 12, 2, 1, 8, 7, 4, 5, 3 : Déterminer les quartiles de cette
xi ni Ni Quantiles
0 1 1 Q1 2
1 1 2
2 1 3
3 1 4 Q2 4
4 2 6
5 1 7 Q3 7
7 2 9
8 1 10
12 1 11
Supposons connues les classes x0 , a et a, b qui encadrent la fréquence relative cumulée
(b a)( Fa ) (b a)( N N a )
Q a a .
Fb Fa Nb N a
LA MOYENNE DE FREQUENCE
28
Il existe une moyenne de fréquence : le mode. Le mode ou variable dominante d’une série est
la variable dont l’observation a la plus grande fréquence (absolue ou relative). Le mode peut ne
pas exister, ou même s’il existe il peut être multiple, la courbe de fréquence est alors
multimodale. Si les données ont exactement deux modes, on dit que la distribution est
bimodale. Si les données ont plus de deux modes, on dit que la distribution est multibimodale et
dans ce cas le mode n’est presque jamais utilisé. L’énumération plus de deux valeurs modales
n’est pas utile pour décrire la forme d’une distribution.
Lorsque la variable est discrète, le mode est facilement repérable. Sur le tableau statistique {xi,
fi}, c’est la valeur xi dont la fréquence est la plus élevée. Sur le diagramme en bâtons c’est la
valeur xi correspondant au bâton le plus haut. Si la série présente deux fréquences consécutives
maximales identiques, on définit un intervalle modal à défaut de pouvoir donner une valeur
exacte du mode.
Classe 0 - 10 10 - 20 20 - 30 30 - 40
Fréquence 2 3 4 1
Par convention, on peut prendre le mode Mo comme la valeur qui occupe le centre de la classe,
soit ici, Mo = 25. On peut aussi déterminer graphiquement la valeur du mode (à l’intérieur de la
classe modale par la méthode des diagonales).
29
Amplitudes de classe inégales
Il faut « corriger » les effectifs ou les fréquences relatives, de la même manière que l’on avait
fait pour construire l’histogramme sur classes inégales, et la détermination du mode se ramène
à la détermination précédente : classe modale et graphe. On définit la classe modale comme la
classe (ou l’histogramme) correspondant à la densité maximale (ou fréquence corrigée
maximale). Le calcul de la détermination de la classe modale se fait en deux étapes :
Exemple :
Par convention, on peut prendre le mode Mo comme la valeur qui occupe le centre de la classe
modale, soit ici, Mo = 70, correspondant à di= 6. On peut aussi déterminer graphiquement la
valeur du mode (à l’intérieur de la classe modale par la méthode des diagonales).
Détermination graphique
En effet d’un point de vue théorique, le mode est l’abscisse correspondant à l’intersection des
droites AB et CD, soit M*0,(voir graphe ci-dessous). Il diffère légèrement du M0 précédemment
1
utilisé. On démontre que : M 0* a ; [ ; ] la classe modale d’amplitude a.
1 2
30
Relation empirique entre moyenne, médiane et mode
Pour les courbes unies modales, modérément asymétrique (à droite ou à gauche) il existe entre
la moyenne M, la médiane Me et le mode Mo, la relation empirique : (M - Mo) = 3 (M - Me).
Pour les courbes symétriques, les trois caractéristiques de valeurs centrales M, Me, Mo sont
confondues. Cette relation est commode pour la vérification des calculs.
Remarque : Le mode est une mesure importante de tendance centrale pour les données
qualitatives. Par exemple, pour la distribution des fréquences pour les achats de boisson non
alcoolisée, on obtient le tableau suivant :
Moyenne d’ordre
La médiane est la mesure de tendance centrale la plus souvent utilisée pour les données sur le
revenu, la valeur financière et la valeur foncière car quelques valeurs extrêmes peuvent
influencer la moyenne. Dans de telles situations, la médiane est une meilleure mesure de
tendance centrale.
Une autre mesurede tendance central est la moyenne tronquée parfois utilisée, lorsque des
valeurs extrêmes sont présentes. Elle est obtenue en supprimant les observations les plus
petites et les plus grandes d’un ensemble de données puis en calculant la moyenne des valeurs
restantes. Par exemple pour le salaire mensuel d’un échantillon de 12 jeunes diplômés d’une
grande école, la moyenne tronquée à 5% est obtenue en supprimant 5% des plus petites valeurs
31
et 5% des plus grandes valeurs, puis en calculant la moyenne des valeurs restantes. En utilisant
cet échantillon, on a : 0,05*12=0,6 que l’on arrondit à 1, la moyenne tronquée à 5% est obtenue
en supprimant la plus petite valeur (2210€) et la plus grande valeur (2825€) et on obtient : Le
salaire mensuel d’un échantillon de 12 jeunes diplômés d’une grande école.
NB : Si les mesures sont calculées pour des données issues d’un échantillon, on parlera de
statistique d’échantillon. Si les mesures sont calculées pour des données issues d’une
population, on parlera de paramètres de la population.
Les plus fréquemment utilisées sont : l’étendue, l’intervalle interquantile, l’écart absolu moyen
et l’écart type (la plus utilisée).
L’étendue et l’écart interquantile sont, dans leur principe, du type de la médiane : les
observations y interviennent par leur rang, et non par leur valeur. L’écart absolu moyen et
l’écart type font, au contraire, intervenir les écarts de chacune des observations à la moyenne
arithmétique : ce sont des moyennes de ces écarts.
L’étendue
L’intervalle de variation ou l’étendue est la différence entre xn la plus grande et x1 la plus petite
des valeurs observées de la variable : E = x n - x1.
32
L’intervalle de variation d’une série est la manière la plus simpliste de mesurer la dispersion,
car c’est la différence entre les deux valeurs extrêmes. Cette caractéristique est très imparfaite,
elle est sujette à des fluctuations considérables. Son calcul est extrêmement rapide, ce qui fait
qu’on l’utilise fréquemment (surtout dans le contrôle de fabrication industrielle).
On dira par exemple que les notes de devoir varient de 6 à 19/20. Supposons que l’âge des
étudiants varie entre 17 et 27ans, l’étendue de cette série sera de 27 - 17 =10 ; si pendant cette
même année un retraité de 77 ans venait s’inscrire l’étendue deviendrait 77 –17 = 60. L’étendue
a été multipliée par six et ceci n’a pas de signification réelle.
L’intervalle (D9 - D1) qui contient 80% des observations est parfois employé au même titre que
l’intervalle interquartile comme mesure de dispersion.
L’intervalle inter-centile égal à : (P99 - P1) qui contient 98% des observations est aussi une
mesure de dispersion.
ÉCARTS PONDERES
Ecart absolu moyen
Il s’agit d’une moyenne arithmétique des écarts par rapport à une valeur centrale (M ou Me), et
non plus d’un écart entre 2 quantiles.
L’écart absolu moyen par rapport à la moyenne arithmétique (M= x ) est défini par :
1 k
e (x) ni xi x .
n i 1
33
L’écart absolu moyen satisfait assez bien aux premières conditions de Yule : définition
objective, prise en compte de toutes les observations, simplicité de calcul mais se prête mal aux
calculs algébriques, on leur préfère l’écart -type. On peut aussi calculer l’écart absolu moyen
par rapport à la médiane.
1 k
V (X )
n i 1
ni ( xi x )² x2 avec n n1 n2 nk .
Ecart type : L’écart type (ou l’écart quadratique moyen) est la moyenne quadratique (ou
moyenne d’ordre 2) des écarts à la moyenne arithmétique, il est défini par :
1 k
x V (X ) ni (x x )² .
n i 1
Comme la moyenne arithmétique, l’écart type satisfait assez bien à l’ensemble des conditions
de Yule. Tenant compte de toutes les observations, il exprime convenablement la dispersion de
la distribution même très dissymétrique. Son calcul est relativement aisé (et se prête assez mal
au calcul algébrique) et, en règle générale, c’est la caractéristique de dispersion la moins
sensible aux fluctuations d’échantillonnage. Sa signification n’apparaît clairement que pour la
comparaison de deux distributions.
Par exemple, si dans une série l’écart type de distribution des notes de devoirs est de 1.5, et si
dans une autre série il est de 4.51, on pourrait dire que dans celle-ci les notes sont trois fois plus
dispersées que dans la première.
Le coefficient de variation
L’écart type, comme la moyenne, s’exprime dans la même unité que la variable statistique.
Pour comparer 2 distributions qui ne sont pas exprimées dans la même unité (distribution de
revenus dans des pays différents par exemple), des distributions dont les moyennes sont
notablement différentes, on a recours au coefficient de variation qui est défini comme le
X
rapport de l’écart type à la moyenne : CV .
x
34
C’est une caractéristique de dispersion relative, nombre sans dimension et par conséquent
indépendant des unités choisies. Il est souvent exprimé sous forme de pourcentage. Par
exemple, dans deux entreprises E1 et E2, pour la distribution des salaires, on trouve: x1 =1600
1 k k
1 k k
V (X )
n i 1
ni ( xi x )² f i ( xi x )² ( ni xi2 ) ( x ²) ( f i xi2 ) ( x ²)
i 1 n i 1 i 1
( xi x) 2 ni ( xi x)
Notes xi Effectifs ni ni xi xi - x 2
228 156,8
X= 11.4 (moyenne arithmétique) V 7,84 (variance) ;
20 20
V 2,8 (écart-type) .
2 2
Taille ti effectif ni ni ti ti - t (ti - t ) ni(ti - t )
35
1,35 3 4,05 -0,15 0,0225 0,0675
44,90
La taille moyenne est t 1,50 .
30
0,235
La variance est V 0,0078 et l’écart type est : V 0,088 .
30
- Celle de l’asymétrie a pour objet de nous renseigner sur la façon régulière ou non dont
les observations se répartissent de part et d’autre d’une valeur centrale;
- Celle de l’aplatissement a pour objet de faire apparaître si une faible variation de
variable entraîne ou non une forte variation des fréquences relatives.
Mesure de l’asymétrie
Une distribution statistique est symétrique si les observations repérées par leurs fréquences sont
également dispersées de part et d’autre d’une valeur centrale. On choisit généralement les 3
valeurs centrales suivantes pour repérer l’asymétrie : le mode (Mo), la médiane (Me) , la
moyenne arithmétique (M = x ). Dans une distribution symétrique, les 3 caractéristiques Mo,
Me et M sont confondues comme le montre la courbe suivante:
36
Courbe symétrique
Lorsque la distribution est asymétrique, la médiane est généralement comprise entre le mode et
la moyenne et plus proche de cette dernière. La courbe non symétrique est dite oblique :
l’oblique se repère du côté de décroissance la plus forte de la courbe des fréquences :
37
On utilise un certain nombre de coefficients, nombre sans dimension, permettant les
comparaisons sans avoir recours aux courbes qui accompagnent la distribution. Nous en
retiendrons, ici, trois connus par les noms de leurs auteurs : YULE, PEARSON, FISHER.
Le coefficient de Yule
Il propose une mesure de l’asymétrie en comparant l’étalement vers la gauche et l’étalement
vers la droite, tous deux repérés par la position des quartiles Q1, Me, Q3.
(Q3 Me) ( Me Q1 ) Q3 Q1 2M e
Le coefficient d’asymétrie de Yule s’écrit : S .
(Q3 Me) ( Me Q1 ) Q3 Q1
M Mo
S .
Remarque : Ce coefficient n’est valable que pour des distributions de fréquence faiblement
asymétriques et unimodales.
Le deuxième coefficient, 1est plus élaboré. Il s’appuie sur le calcul des moments centrés. Ceci
est beaucoup plus fastidieux mais le résultat obtenu est plus intéressant, surtout pour les séries
possédant un grand nombre d’observations.
32 1 k
Il s’écrit :1 = 3
2
avec p
n i 1
ni ( xi x ) p (2 = ²).
38
Si 1 = 0 la distribution des fréquences est symétrique (autour d’un axe passant par x ).
Si 1> 0 la distribution des fréquences est oblique à gauche (plus étalée à droite qu’à
gauche).
Coefficient de Fisher
Sir Roland Fisher propose le coefficient 1 qui n’est que la racine carrée du coefficient 1 de
Pearson : 3 . On tire les mêmes conclusions que pour 1.
1 1
3
Si 1 < 0 la distribution des fréquences est oblique à droite (plus étalée à gauche qu’à
droite).
MESURE DE L ’APLATISSEMENT
On considère qu’une courbe de fréquence soit plus ou moins aplatie, par référence à la courbe
de fréquence (ou densité) de la normale (loi de GAUSS- LAPLACE). Ainsi une distribution est
dite aplatie si une forte variation de la variable entraîne une faible variation de la fréquence
relative (fi) et inversement.
fi
10
0
1 2 3 4 5 6 7 8
Courbe normale
1,5
0,5
0
1 2 3 4 5 6 7 8 9
Courbe hyponormale
39
40
30
20
10
0
1 2 3 4 5 6 7 8 9 10 11
Courbe hypernormale
4 4
1- Le coefficient de Pearson (Kurtosis) : 2 . Ce coefficient est d’autant plus
22 4
faible que la courbe est hyponormale :2=3 pour une distribution normale (2 croît avec la
concentration des fréquences autour de la moyenne).
4
2- Le coefficient de Fisher: 2 2 3 3.
4
Nous avons eu à notre disposition une « batterie » de valeurs typiques qui nous renseignent sur
l’allure générale d’une série que l’on trouve en dessinant la courbe des fréquences. En
cherchant maintenant à déterminer si une série quelconque s’écarte plus ou moins d’une série
« idéale » dans laquelle les écarts types entre les observations seraient parfaitement
« égalitaires », on utilise comme mesure celle de la concentration. Elle montre l’écart entre la
série observée et une série « idéalement égalitaire ».
La concentration est donc une conséquence directe de la dispersion ; ceci revêt une grande
importance en économie (concentration des salaires, des revenus, de la taille des entreprises).
40
Cette caractéristique ne s’applique qu’aux variables statistiques continues à valeurs positives.
On lui trouve de nombreuses applications dans la gestion de l’entreprise.
Remarque : La médiale est supérieure à la médiane vu qu’on raisonne à partir de la masse (ni
xi ou fi xi).
- Si M est grand par rapport à l’intervalle de variation, la concentration est forte (dans
l’exemple des revenus, cela signifierait qu’il y a de grandes disparités de revenus entre
les classes de revenus).
- Si M est petit par rapport à l’intervalle de variation, la concentration est faible (dans
l’exemple des revenus, cela signifierait qu’il n’y a pas de grandes disparités de revenus
entre les classes de revenus).
- Si M est nul, la médiane est égale à la médiale, on se trouve dans une situation
d’égalité parfaite ou d’équi-répartition, si les classes sont bien choisies. (Dans
l’exemple des revenus tout individu a le même revenu entre les différentes classes de
revenus).
L’INDICE DE CONCENTRATION
41
Cet indice est une mesure de dispersion relative (qui a été proposée) par le statisticien italien
CORRADO GINI : 1912) et utilisée pour la dispersion de certaines distributions statistiques :
distribution de salaires ou de revenus, distribution d’entreprises suivant leur taille (nombre de
salariés, chiffres d’affaires).
La courbe de Lorenz ou courbe de concentration ne peut se construire que pour les grandeurs
sommables. (La somme des revenus de deux individus a un sens mais pas la somme de leurs
âges). La courbe de concentration est synthétique et a pour objectif essentiel de transmettre un
message visuel. Elle allie à la fois le nombre de caractères et la totalité des caractères. La
courbe se construit à partir des fréquences cumulées relatives. Dans un repère orthonormé on
porte :
- en abscisse les valeurs de la fréquence cumulée relative de la série (ni , xi), donc F(x)
(fonction de répartition qui varie de 0 à 1 ) ;
- en ordonnée les valeurs de la fréquence cumulée relative de la série (nixi , xi) qui nous a
permis de calculer la médiale (elles varient aussi de 0 à 1).
On construit ensuite la courbe point par point et on obtient un carré ABCD qui porte
généralement le nom de « carré de GINI ».
De la représentation ci-dessus, on lit : pour F(x) = 0,6 on a F(nx) = 0,3. Avec l’exemple des
revenus on peut dire que 60% des individus se partagent 30% de la masse des revenus. La
42
bissectrice AC est la ligne d’équi-répartition parfaite, ce qui correspond à la ligne de
concentration nulle. Donc plus la courbe de concentration s’écarte de la bissectrice, plus la
concentration est forte.
L’INDICE DE GINI
i
n x k k n
En règle générale, i k 1
n
. et IG =2× aire de concentration = 1 ( i 1 i ) fi .
n x
i 1
i i
i 1
(
i 1
i 1 i ) fi
Exemple Etudions la concentration de la distribution des allocations (en milliers de francs CFA)
suivante :
4
Fi (βi + βi-1)
ci fi Fi↑ xi
4
fixi f x i i
fx
i 1
i i βi βi-1
i 1
32
[10; 20[ 0,2 0,2 15 3 3 0,094 0,094 0 0,019
[20; 30[ 0,4 0,6 25 10 13 0,406 0,406 0,094 0,200
[30; 50[ 0,3 0,9 40 12 25 0,781 0,781 0,406 0,356
[50; 90[ 0,1 1 70 7 32 1,000 1,000 0,781 0,178
Total 1 32 0,753
La médiane est la valeur Me du caractère qui correspond à la fréquence cumulée 0,5, donc elle
sera telle que :
20 M e 30 M 20 30 20 10
e 25, donc M e 20 25 0,3 27,50.
0, 2 0,5 0, 6 0,5 0, 2 0, 6 0, 2 0, 4
43
La médiale Ml est la valeur du caractère qui correspond à βi= 0,5, elle partage la série (nixi ; xi)
en deux sous-ensembles égaux et elle est telle que :
30 Ml 50 Ml 30 50 30 20 0, 094
, donc Ml 30 20 35, 013.
0, 406 0,5 0, 781 0,5 0, 406 0, 781 0, 406 0,375 0,375
On conclut que la concentration est faible, donc il y a une faible disparité des allocations entre
les différentes classes d’allocations. Le calcul de l’indice de GINI donne : IG = 2 × aire de
n
concentration = 1 ( i 1 i ) fi . Pour l’indice de GINI, IG = 1- 0,753 = 0,247 = 24,70%.
i 1
M
Cette valeur est un peu plus élevée que celle obtenue par le rapport , mais cela confirme
E
la faible concentration obtenue précédemment.
Exercices
Exercice 1
L’enquête démographique et de santé Gabon 2000 (EDSG 2000) a donné la distribution des
mères d’enfants de moins de cinq enfants selon le niveau d’instruction :
Exercice 2
La population des quatre régions d’Angoville est donnée par le tableau suivant :
44
Exercice 3
Etant donné les valeurs suivantes : 12, 4, 3, 8, 7, 2 :
Exercice 4
Etant donné les cinq valeurs suivantes : [2, 8, 17, 12, 3] dont les coefficients attribués respectifs
sont [2, 3, 1, 3, 2] :
Exercice 5
Lors d’un recensement, on a obtenu les résultats partiels suivants :
6 0 - 5 ha
24 5 - 10 ha
8 10 - 20 ha
2 20 - 50 ha
Quelle est la surface de l’exploitation moyenne (on calculera toutes les moyennes ?
Exercice 6
A partir du tableau ci-dessous,
Exercice 7
On achète pour une première fois pour 54600 F de dollars au cours de 600 F, puis pour 27300 F
de dollars au cours de 650 F, puis pour 40950 F de dollars au cours de 700 F.
Exercice 8
Exercice 9
Un placement à intérêt composé s’est étendu sur 14 ans, aux conditions suivantes :
- pendant 5ans au taux annuel de 7% ;
- pendant les 6 années suivantes au taux annuel de 8% ;
- pendant les 3 dernières années au taux annuel de 6,5%.
Calculer sur l’ensemble des 14 ans le taux annuel moyen de placement.
Exercice 10
Déterminer le mode et la médiane des séries suivantes :
1. {9, 8, 5, 5, 2, 3, 5, 6, 1, 6} ;
2. {10, 8, 11, 12, 4, 5, 6, 7, 4, 6, 8}.
Exercice 11
Etant donné la distribution statistique suivante :
Classes Fréquences
0 à 10 18
46
10 à 20 26
20 à 30 20
30 à 40 36
Total 100
Exercice 12
Etant donné la distribution statistique suivante :
Classes Fréquences
0 à 5 8
5 à 10 6
10 à 30 10
30 à 50 6
Total 30
Exercice 13
Etant donné la distribution statistique suivante :
Classe Fréquences
Moins de 25 4
25 à moins 35 5
35 à moins 45 8
45 à moins 55 9
55 à moins 65 7
65 à moins 75 6
75 à moins 85 8
85 à moins 95 2
95 et plus 1
Total
1. calculer la moyenne M, le mode M0 et la médiane Me ;
2. vérifier la valeur trouvée pour Me, à partir de la relation empirique entre M, Me et M0.
Exercice 14
Une étude sur le chiffre d’affaires d’une population de petites et moyennes entreprises a permis
d’obtenir les résultats suivants (en million de FCFA) :
47
Minimum 3500
Moyenne 4900
Ecart-type 650
Mode 4550
Médiane 4600
Ecart interquartile 1100
Premier quartile 4100
Premier décile 3700
Ecart inter-décile 2800
Etendue 5000
4 3,012
4
Corrections
Exercice 1
Niveau
d'instruction Effectifs (ni) fi Angles
(des mères)
Aucun 152 0,06 21,6°
Primaire 1035 0,40 144°
Secondaire 0,54 194,4°
ou plus 1376
Ensemble 2563 1 360°
Dans cet échantillon, le niveau secondaire et primaire fait plus de 94% de la population, ce qui reflète
un niveau d’éducation acceptable.
Exercice 2
Département Population % Angles Population d'ANGOVILLE
(en milliers)
I 5150 0,667 240
1
II 1710 0,222 80
2
III 420 0,054 19
3
IV 440 0,057 21 4
Total 7720 1,000 360
48
Exercice 3
N0 xi lnxi 1/xi x²i
1 2 0,693 0,500 4
2 3 1,099 0,333 9
3 4 1,386 0,250 16
4 7 1,946 0,143 49
5 8 2,079 0,125 64
6 12 2,485 0,083 144
Total 36 9,688 1,435 286
36
1. Moyenne arithmétique : M= X =6;
6
2. Moyenne géométrique G :
9, 688
ln G 1, 615 G e1,615 5, 026
6
3. Moyenne quadratique :
286
Q 47, 667 6,904 .
6
6
4. Moyenne harmonique : H= 4,178
1,435
5. Comparaison des différentes moyennes obtenues :
H = 4,178 < G = 5,026 < M = 6 < Q = 6,904
Exercice 4
xi ni lnxi ni x i ni lnxi ni /xi ni x²i
2 2 0,693 4 1,386 1 8
3 2 1,099 6 2,198 0,667 18
8 3 2,079 24 6,237 0,375 192
12 3 2,485 36 7,455 0,25 432
17 1 2,833 17 2,833 0,059 289
Total 11 87 20,109 2,350 939,000
87
1. moyenne arithmétique pondérée : M= X = 7,909 ;
11
20,109
2. moyenne géométrique pondérée G : lnG = 1,828 G e1,828 6,222 ;
11
939
3. moyenne quadratique pondérée : Q= 85,364 9,239 ;
11
11
4. moyenne harmonique pondérée : H= 4,681 ;
2,35
5. comparaison des différentes moyennes obtenues :
H = 4,681 < G = 6,222 < M = 7,909 < Q = 9,239.
49
Exercice 5
Ci (hectares) xi ni lnxi Nixi Nilnxi ni/xi nix²i
0à5 2,5 6 0,916 15 5,498 2,4 37,5
5 à 10 7,5 24 2,015 180 48,358 3,2 1350
10 à 20 15 8 2,708 120 21,664 0,533 1800
20 à 50 35 2 3,555 70 7,111 0,057 2450
Total 40 385 82,631 6,190 5637,5
385
moyenne arithmétique : M= X = 9,625 ;
40
40
moyenne harmonique : H= 6,462 ;
6,19
82,631
moyenne géométrique G : lnG= 2,066 G e 2, 066 7,891 ;
40
5637
moyenne quadratique : Q= 140,938 11,872 .
40
Comparaison des différentes moyennes obtenues :
H = 6,462 < G = 7,891 < M = 9,625 < Q = 11,872
Exercice 6
Département Nombre d’H Population Nombre de voitures
xi mi mi
ni
xi
I 5 5150 1030
II 7.5 1710 228
III 7 420 60
IV 8 440 55
total 7720 1373
1. Le nombre de voitures qu’il faut par département est donné dans la dernière colonne du
tableau ci-dessus.
7720
2. Le nombre moyen d’habitants par voiture est : X 5, 62 (moyenne harmonique),
1373
qu’on peut arrondir à 6 habitants par voiture.
Exercice 7
xi ni ni
xi
600 54600 91
650 27300 42
700 40950 58.5
Total 122850 191.5
50
122850
La moyenne cherchée est : H 641,514 (il s’agit ici d’une moyenne
191.5
harmonique).
Exercice 8
Xi ni Lnxi ni lnxi
1,06 3 0,058 0,175
1,08 2 0,077 0,154
1,05 4 0,049 0,195
1,03 2 0,030 0,059
Total 11 0,214 0,583
1. On a : P1= (1,06)3P0; P2= (1,08)2P1; P3= (1,05)4P2 ; P4= (1,03)2P3; soit r le taux moyen, on
obtient : P = (1+ r )11P0 = P4 = (1,06)3(1,08)2(1,05)4(1,03)2P0, d’où
11 ln (1+ r )=3 ln (1,06) + 2 ln (1,08) + 4 ln (1,05) + 2 ln (1,03) :
11 ln (1+ r ) = 0,583.
0,583
ln (1 r ) 0, 053 1 r e0,053 1, 0544
11
Le taux annuel moyen est alors r =1,0544 – 1= 0,0544= 5,44 %.
Autre démarche
Le phénomène évolue comme une suite géométrique pendant différentes périodes et si on suppose
que le taux de croissance moyenne est r sur la période étudiée, on aura :
P = (1+ r )11P0 = (1,06)3(1,08)2(1,05)4(1,03)2P0, d’où
11 ln (1+ r )=3 ln(1,06) + 2 ln(1,08) + 4 ln(1,05) + 2 ln(1,03).
Exercice 9
Le placement étant à intérêt composé et si on suppose que le taux de croissance sur la période est r ,
on aura:
(1+ r )14U0 = (1,07)5(1,08)6(1,065)3U0 →(1+ r )14 = (1,07)5(1,08)6(1,065)3 (en passant par le logarithme
ln) on a : 14 ln (1+ r ) = 5 ln (1,07) + 6 ln (1,08) + 3 ln (1,065).
D’où le tableau suivant :
xi ni lnxi nilnxi
1,07 5 0,068 0,338
1,08 6 0,077 0,462
1,065 3 0,063 0,189
Total 14 0,174 0,989
0,989
D’après les calculs on obtient : ln(1 r ) 0, 070643 1 r e0,070643 1, 0732 .
14
Le taux annuel moyen est alors r =1,0732 – 1 = 0,0732 = 7,32 %.
Procédure générale
On calcule : U1= (1,07)5U0; U2= (1,08)6U1; U3= (1,065)3U2 ; donc,
U14 = (1+ r )14U0 = (1,07)5(1,08)6(1,065)3U0, d’où
51
14 ln (1+ r ) =5 ln (1,07) + 6 ln (1,08) + 3 ln (1,065). Tous ces calculs sont résumés dans le tableau
suivant:
xi ni lnxi nilnxi
1,07 5 0,068 0,338
1,08 6 0,077 0,462
1,03 3 0,030 0,089
Total 14 0,174 0,889
0,889
On obtient : ln (1+r) = 0, 0635 1 r e0,0635 1, 065559. .
14
Le taux annuel moyen est alors r =1,066 – 1= 0,066 = 6,6%.
Exercice 10
55
1. 1,2,3,5,5,5,6,6,8,9 : il y a 10 = 25 observations, donc la médiane est Me 5 et M0 =5
2
(car 5 a l’effectif le plus élevé 3).
2. 4,4,5,6,6,7,8,8,10,11,12 : il y a 11 (=25+1) observations, donc la médiane est la valeur de la
sixième observation, d’où Me = 7. La distribution est bimodale : M0= 6 ou M0 = 8
(correspondant à l’effectif 2).
Exercice 11
Ci xi ni ni xi Ni
0à10 5 18 90 18
10à20 15 26 390 44
20à30 25 20 500 64
30à40 35 36 1260 100
Total 100 2240
a- La classe [30 ; 40[est la classe modale, elle correspond à l’effectif le plus élevé. Une
30 40
estimation du mode est M0 = 35 ;
2
2240
b- la moyenne arithmétique X 22,4 ;
100
20 M e 30 M 20 30 20
c- la médiane Me est telle que : e M e 23 .
44 50 64 50 44 64 44
Exercice 12
Ci xi ni Ni ai ri =ai /5 hi =ni /ri ni xi
0à5 2,5 8 8 5 1 8 20
5 à 10 7,5 6 14 5 1 6 45
10 à 30 20 10 24 20 4 2,5 200
30 à 50 40 6 30 20 4 1,5 240
Total 30 505
52
1-
505
1- La moyenne aruthmétique est X 16,833 .
30
2- La classe [0 ; 5[ est la classe modale, elle correspond à l’effectif corrigé le plus élevé. Une
05
estimation du mode est M0 = 2,5 .
2
3- la médiane Me est telle que :
10 M e 30 M 10 30 10
e 2 M e 12.
4- 14 15 24 15 14 24 14
La distribution des fréquences est oblique à gauche car M 0 2,5 Me 12 M
Exercice 13
Ci xi ni Ni ni xi
15 - 25 20 4 4 80
25 - 35 30 5 9 150
35 - 45 40 8 17 320
45 - 55 50 9 26 450
55 - 65 60 7 33 420
65 - 75 70 6 39 420
75 - 85 80 8 47 640
85 - 95 90 2 49 180
95 - 105 100 1 50 100
Total 50 2760
2760
1. La moyenne arithmétique est X 55,20 .
50
2. La classe modale est [45 ; 55[. Elle correspond à l’effectif le plus élevé. Une
45 55
estimation du mode est M0 = 50 .
2
La médiane Me est telle que :
45 M e 55 M e 45 55 45 10
M e 53,89 .
17 25 26 25 17 26 17 9
3. Pour une distribution modérément asymétrique, on obtient :
M-M0 = 3 ( M - Me) 3Me = 2M+M0
2M M 2 53, 2 50 160, 4
Me 53, 47 .
3 3 3
53
Comme ces deux valeurs sont proches, on peut donc confirmer que la distribution observée
est modérément oblique à gauche.
Exercice 14
1. Classement des paramètres en quatre catégories :
- Position : moyenne, médiane, mode 1er quartile, 1er décile, minimum.
- Dispersion : écart-type, écart interquartile, écart interdécile, étendue.
4
- Forme : .
4
M
- Concentration : .
E
2. E xn x1 5000 xn 5000 x1 5000 3500 8500 millions.
Le plus grand chiffre d’affaires est 8500.
3. Q3 Q1 1100 Q3 1100 Q1 1100 4100 5200 .
Le troisième quartile est Q3 = 5200 millions.
D9 D1 2800 D9 2800 D1 2800 3700 6500 .
Le neuvième décile est D9 = 6500 millions.
1. Conclusion
Etude de la forme
M 4900 M e 4600 M o 4550 , distribution oblique à gauche (étalement vers la droite);
4
2 3 0.012 0, la distribution est presque normale;
4
Etude de la concentation
M M L M e 850 M L 850 M e 850 4600 5450 millions
M 850
0.17 17% (faible concentration).
E 5000
Il y a une faible disparité des chiffres d’affaires entre les différentes classes de chiffres
d’affaires.
54
Partie II Tri croisè (Distribution à deux caractères)
Soient deux caractères X et Y définis sur un même échantillon de taille de taille n extrait
d’une même population. X et Y peuvent être qualitatifs ou quantitatifs ou l’un quantitatif et
l’autre qualitatif.
X X1 X2 Xn
Y Y1 Y2 Yn
200
180
160
140
120
100 Série1
80
60
40
20
0
0 2 4 6 8 10
55
Ce tableau définit une série statistique à deux variables, x et t.
On peut aussi associer à cette série deux séries statistiques à une variable.
La série des valeurs prises par le nombre d’éclosions x, a pour moyenne arithmétique x
=163,5 .
Ainsi pour une série statistique à deux variables quantitatives, l’ensemble des points
Mi = ( ti , x i ) est appelé nuage de points associé à cette série et le point G( t, x ) est le point
moyen du nuage .
- l'indépendance ;
- la non – corrélation ;
- la liaison fonctionnelle.
Le fait que l'on puisse calculer les valeurs d'une variable Y à partir de celles observées d'une
autre variable X ne signifie nullement que les valeurs observées, pour X soient la cause des
valeurs observées pour Y.
Ce n'est pas parce que, comme une étude récente l'a montré qu’à ANGOVILLE, les
naissances annuelles sont proportionnelles aux quantités de poissons péchés par an, qu'on
peut conclure que la pêche soit la cause des naissances. Les trois types de liaison évoqués ci
dessus sont obligatoirement liés à la structure mathématique dont sont dotés les ensembles de
modalités des caractères associés à X et Y.
56
Dans le cas général l'indépendance et la liaison fonctionnelle sont des cas extrêmes que l'on
rencontre rarement dans la réalité. En pratique, on se situera entre ces deux extrêmes et on
dira que les variables présentent une certaine dépendance statistique ou liaison corrélative.
METHODE D'AJUSTEMENT.
Il existe plusieurs méthodes pour trouver cette liaison fonctionnelle, on se limitera ici à la
méthode des moyennes mobiles et à la méthode des moindres carrés
Soit n couples (xi, yi) d'observations où les xi sont rangés par ordre de valeurs croissantes.
Cette méthode permet d'obtenir des valeurs corrigées des variations saisonnières.
B ) M ETHODE ANALYTIQUE .
Dans ce qui suit, X est une variable indépendante et Y est une variable dépendante, on
dit aussi que X est la variable explicative (variable exogène) et Y la variable expliquée
(variable endogène). On recherche la fonction f tel que y = f (x) soit l’équation de la courbe
d’estimation de Y en fonction de X.
On se demande s’il existe une dépendance linéaire entre les valeurs prises par X et les valeurs
prises par Y.
ce qui peut vous inciter à tracer une courbe qui semble « ajuster » ce nuage.
57
7 12
6 10
5
8
4
6
3 fig 1 fig 2
4
2
1 2
0 0
0 2 4 6 8 0 5 10 15
Dans le cas de la figure 2, Il semble que l’on peut tracer une droite pour ajuster ce nuage et on
se demande « quelle droite tracer ? »
La méthode des moindres carrés nous apporte une certaine réponse à cette question.
DROITE DE REGRESSION
Principe
La méthode est basée sur le principe qu’il faut réduire au maximum les écarts verticaux entre
les valeurs observées et les valeurs théoriques fournies par la droite.
58
But : minimiser (écart 1 + écart 2 + ....+ écart n), ce qui s’écrit : Min ( des écarts)
écart2 = y2 - y’2
Ces différences (écarts peuvent être positives (écart e2), négative (écart e1 ) ou nulle si les
valeurs observées et théoriques sont confondues).
Pour éliminer ce problème de signe et faire en sorte que la sommation de ces écarts ne se
traduise pas par une compensation quand ils sont de signes contraires, on les élève au carré, ce
qui les rend tous positifs.
Nous chercherons donc à minimiser (des écarts)2. L’expression d’un écart quelconque
peut s’écrire : ei = yi - y’i ; donc la droite la plus représentative est celle pour laquelle la
somme des écarts (ei )² est minimale, d’où le nom de méthodes des moindres carrés
n
Min ( (yi - y’i )2.
i 1
On démontre et nous admettons que la droite qui minimise les écarts passe par un point
x
n
i x yi y
i 1
caractéristique, le point moyen de coordonnées x et y et que sa pente a
x
n
2
i x
i 1
et son équation y y a( x x)
1 n 1 n ,
x i
n i 1
x et y i
n i 1
y o u ˆ
y ˆ
a x ˆ avec b y a x .
b
Définition
On appelle covariance entre les variables les x et les y notée cov(x, y), le réel défini par
1 n 1 n
cov ( x , y ) ( xi x )( yi y ) xi yi x y
n i 1 n i 1
cov(x, y )
d’où aˆ
x2
59
cov(x, y )
r a x
x y
y
Propriétés
1- -1 r 1
x y
2- r=â â= r.
y x
3 3
Si r 1 ou 1 r , on dit qu’il y a une forte corrélation entre x et y ,
2 2
l’ajustement linéaire est justifié.
1 1
Si 0 r ou r 0 , on dit qu’il y a une faible corrélation entre x et y ,
4 4
l’ajustement linéaire n’ est pas justifié.
on a : a.a’ = r ²
R² = r²= aa’ est appelé le coefficient de détermination, et r=R est ici le coefficient de
corrélation linéaire simple entre x et y (multiple dans le cas de modèle de régression multiple)
R² mesure la proportion de la variance de y expliquée par la régression de y en x et
(1-R²) mesure la proportion de la variance de y qui n’est pas expliquée par la régression de y
en x.
Exemple
Le tableau suivant donne l’évolution de la moyenne Y, d’un étudiant compte tenu de sa note
de mathématiques durant quatre années d’étude.
X Y x² Y² XY
60
Calculs de base
60 55 839
X 15; Y 13, 75; Cov ( X , Y ) 15 13, 75 3,5;
4 4 4
926
VarX 15² 6,5; X 6,5 2,55
4
765
VarY (13, 75)² 2,19 ; Y 2,19 1, 48
4
Cov( X , Y ) 3,5
La pente : a 0,54 et b Y aX 13,75 0,54 15 5,65
VarX 6,5
61
IV-2 Tableau de contingence en fréquences (relatives ou absolues)
Lorsqu’on étudie simultanément, sur une population P deux variables, il est commode de
représenter les résultats sous forme de tableau à double entrée appelé tableau de contingence
(en effectifs on en fréquences). Soient X= (X1, X2,…., Xr ) et Y= (Y1, Y2,…., Ys ) deux
caractères étudiés sur un même échantillons de taille N.
Exemple Quatre vingt dix enfants d’un échantillon atteints de l’asthme et eczéma sont répartis
de la manière suivante
Ici N = 90
Il y a par exemple 9 personnes souffrant d’asthme moyen parmi le groupe des présents. Les
marges de ce tableau sont les totaux. Avec les notations données ci-contre on a évidemment
ici :
19
La fréquence marginale des présents 0,211 21,11%)
90
62
Autre exemple
A l’oral du second tour du bac 2005, 200 candidats ont été interrogé. Chaque candidat est
interrogé sur deux matières, les mathématiques (X) et le français (Y) et obtient respectivement
les notes x et y par matière (note/20). Les résultats sont donnés dans le tableau suivant :
Tableau 4
Français (ni.)
8-10 20 12 8 40
10-12 40 28 12 80
12-15 10 50 20 80
nij
Fréquences relatives: On définit f ij
N
(fréquence du couple (xi ,yj ) avec f
i j
ij 1
63
Les fréquences marginales de xi et de yj sont respectivement :
ai bj
fi
N
et f . j
N
avec f
i
i. f .j 1.
j
nij
Fréquences conditionnelles de la modalité yj liée par la modalité xi est f yj ;
xi ai
nij
Fréquences conditionnelles de la modalité xi liée par la modalité yj est f xi ;
yj bj
L’Indépendance
Soient X et Y des variables statistiques définies sur une population Ω. On dit que Y est
indépendant de X si, pour toute modalité observée xi de X la distribution en fréquence de la
variable conditionnée Y x =x i , est égale à la distribution en fréquence de la variable marginale
Y. Autrement dit: quels que soient i = 1,…,r et j = 1,…, s : la fréquence f ij (Y = yj / X = xi )
= fij (Y = yj)
Propriété très importante : Si Y est indépendante de X, alors quels que soient i=1,…, r et
j=1,…, s : X et Y sont indépendantes si et seulement si: f ij= fi fj.
Cette propriété caractéristique de l'indépendance est très importante, car elle permet, à partir
des distributions marginales en fréquences des variables X et Y, de reconstituer le tableau de
contingence en effectif que l'on doit obtenir si l'on fait l'hypothèse que les variables X et Y
sont indépendantes. Ce tableau reconstitué est appelé tableau de contingence théorique en
effectif. Soit tij, l'effectif théorique lorsque l'hypothèse d'indépendance est réalisée, quels que
t ij n. j ni. n. j ni.. ai b j
soient i=1,..,r et j=1,…,s : t ij .
N NN N N
ai b j
Les effectifs tij sont appelés effectifs théoriques : tij .
N
TEST DU KHI-DEUX :
Pour mesurer la "distance " qui sépare le tableau théorique du tableau observé, on utilise
r s (nij t ij )²
l'indicateur noté c2 et appelé "Khi-deux".
i 1 j 1 t ij
64
c2 = 0 si et seulement si X et Y sont indépendants.
variable aléatoire 2 est une variable de Pearson à v ( L 1)(C 1) degré de liberté (ddl)
on conclut ainsi :
Exemple Deux cents enfants d’un échantillon atteints d’asthme et d’eczéma sont répartis de la
manière suivante :
Asthme
Fort Moyen Léger Total
Eczéma
25 5 5 35
Présent 12,775 15,575 6,65
30 30 10 70
Passé 25,55 31,15 13,3
18 54 23 95
Jamais 34,675 42,275 18,05
Total 73 89 38 200
65
25 12, 775 5 15,575 5 6, 65 30 25,55 30 31,15 10 13,3
2 2 2 2 2 2
2
c
12, 775 15,575 6, 65 25,55 31,15 13,3
18 34, 675 54 42, 275 23 18, 05
2 2 2
34, 675 42, 275 18, 05
11, 699 7,180 0, 409 0, 775 0, 042 0,819 8, 019 3, 252 1,357
c2 33,552
v 3 1 3 1 4 degrés de liberté
5%
2
4 9, 49 (lu sur la table du ²)
Soit H0 : l’asthme et l’eczéma sont indépendants ; comme c2 33,552 > 52% 4 9,49 , on
conclut la dépendance de ces deux maladies et on rejette l’hypothèse H0.
Exercice 1
On considère la répartition des chefs d’exploitation par âge et par taille de S.A.U. (surface
agricole utile) donnée par le tableau suivant : X : « âge », Y : « surface » en hectares.
1. Combien y-a-t-il de chefs d’exploitation ayant moins de 55 ans et dont l’exploitation fait
plus de 30 hectares de S.A.U. ?
2. Reproduire le tableau en le complétant avec les effectifs marginaux.
3. Donner les lois marginales de X et de Y.
4. Calculer les moyennes et les écarts types de X et de Y.
5. Calculer la covariance entre X et Y, déduire le coefficient de corrélation puis
l’interpréter.
Exercice 2
66
Y [6,
[0, 6[ [10, 14[ [14, 20[ Total
X 10[
Établissement 1 52 12 8 2 74
Établissement 2 24 18 6 2 50
Établissement 3 2 8 10 12 32
Établissement 5 20 16 6 2 44
Total 98 54 30 18 200
1. Donner la loi de X et celle de Y.
2. Calculer la moyenne et la variance de Y.
3. Les variables X et Y sont-elles indépendantes ?
Exercice 3
Les 1000 femmes d’un échantillon sont réparties selon leur niveau d’éducation (NED) et leur
appartenance à une catégorie socio-économique (CSE) de la manière suivante :
Exercice 4
Le chef de service d’une grande surface dispose des données ci-dessous. Pour différents
produits le temps Y (Temps mis en mn et 1/10 de mn) mis par un employé à installer les
rayons en fonction du nombre X d’articles rangés est donné dans le tableau suivant :
Produit n°i X Y
1 10 2
2 20 5
3 40 5.5
4 50 6.2
5 70 7.9
6 100 10.2
7 120 13
8 150 15.4
Total 560 65.2
On donne les résultats suivants : xi2 56400; yi2 670,3 ; x y
i i 6093 .
67
1. Ecrire l’équation de droite régression de Y en X puis tracer cette droite sur le même
graphique que le couple (Xi, Yi).
2. Calculer le coefficient de détermination R2 de la régression.
3. En voyant ce graphique, une donnée, la seconde, semble anormale ; elle correspond à une
présentation publicitaire qui a nécessité un temps plus important :
15 15
( yi y )² 454.592, 40
i 1
( x x )( y y ) 55.199, 40
i 1
i i
68
3) Pour 100.000.000f de dépense publicitaire, quel sera le chiffre d’affaire espéré ?
Exercice 7
Le chef de service d’une grande surface dispose des données ci-dessous. Pour différents
produits le temps Y (Temps mis en mn et 1/10 de mn) mis par un employé à installer les
rayons en fonction du nombre X d’articles rangés est donné dans le tableau suivant :
10 10 10 10 10
On donne les résultats suivants : xi 560 y i 65, 2 xi2 56400; yi2 670,3 ; x y i i 6093 .
i 1 i 1 i 1 i 1 i 1
69
Y 0 10 10 30 30 50 50 100 Total
5 20 40 75
ni 270 174 208 370 1022
ni y i 1350 3480 8320 27750 40000
ni yi2 6750 69600 332800 2081250 2490400
5 20 40 75 Total
Y
X
20 1000 4800 7200 16500 29500
30 3000 8400 19200 67500 98100
40 8000 14400 52800 177000 252200
50 20000 60000 140000 562500 782500
60 36000 84000 192000 540000 852000
Total 2014300
Exercice 2
Soient E1, E2, E3 et E4 les établissements numéros 1, 2, 3et 4 respectivement.
Profil en ligne de cette distribution :
E1
70,3% 16,2% 10,8% 2,7% 100,0%
E2
48% 36% 12% 4% 100%
E2
6% 25% 31% 38% 100%
E4
45% 36% 14% 5% 100%
70
Loi marginale de Y 49% 27% 15% 9% 100%
1.
X 0-6 6-10 10-14 14-16 Loi marginale de X
Y
E1 53% 22% 27% 11% 37%
E2 24% 33% 20% 11% 25%
E2 2% 15% 33% 67% 16%
E4 20% 30% 20% 11% 22%
Total 100% 100% 100% 100% 100%
Loi marginale de X
X Fi(%)
E1
37
E2
25
E2
16
E4
22
Total 100%
Loi marginale de Y
X 0-6 6-10 10-14 14-16 Total
fi (%) 49 27 15 9 100
fi (%) 49 27 15 9 100
xi 3 8 12 15
678
La moyenne des notes est M = 100 = 6,78.
6354
La variance des notes est V(Y) = 100 − 6,78² = 17,57.
Question : les variables (X et Y) sont-elles indépendantes ?
Soit l’hypothèse : Ho: <<X et Y sont indépendants>>.
71
ai b j
t ij
Sous l’hypothèse H0, déterminons les effectifs théoriques (tij) : N
i 1 j 1 t ij
6,83 3,19 0,87 3,26 Total
0,01 1,50 0,30 1,39
11,94 0,05 5,63 28,88
0,11 1,43 0,05 0,97
18,89 6,16 6,85 34,50 66,41
Exercice 3
Soit l’hypothèse H0 : « le niveau d’éducation et la catégorie socio-économique sont deux
caractères indépendants »
Tableau de contingence en effectifs observés et en effectifs théoriques
Calcul du « Khi-Deux »
70 135, 744 266 200, 256 44 118, 008
2 2 2
c
2
135, 744 200, 256 118, 008
c 31,841 21,584 0,363 0, 246 68, 472 46, 414
2
c 2 168,92.
72
Le nombre de degré de liberté est v = (2-1) (3-1) = 2
5% 2 2 5,99 .
Ho : <<le niveau d’éducation >>et <<catégorie socio-économique>> sont deux
caractères indépendants.
Comme c 2 168,92 5% 2 2 , alors l’hypothèse Ho est rejetée. En conséquence ces deux
caractères sont dépendants.
Exercice 4
1. Equation de la droite de régression de Y en X.
Calcul des moyennes de X et de Y.
560 65, 2
X 70 et Y 8,15 .
8 8
2. Calcul des coefficients de la droite de régression de Y en X.
Cov X , Y 6093 8 70 8,15 6093 4565 1529
aˆ 0, 089
Var X 56400 8 702 17200 17200
bˆ y ax
ˆ 8,15 0,089 70 1,92.
D’où la droite de régression y 0,089 x 1,92.
3. Calcul du coefficient de determination R²
56400
X 702 2150 46,368
8
670,3
Y 8,15 17,365 4,167
2
8
191,125
r 0,989
193, 215
2
1529
R2
8 36576,5625
0,9797 et 1 R 2 0, 0203 2, 03% .
2150 37334, 75
4. Après l’élimination du couple (20,5), on obtient une nouvelle base de données :
Calcul des moyennes de X et de Y.
xi 540, xi2 56000, yi 60, 2, xi yi 59,93
y 2
i 645,3, x 77,143, y 8, 6
Calcul des coefficients de la droite de régression de Y en X.
Var X 1 2048,96 X1 45, 265
645,3
Var Y1 8, 6 92,186 73,96 18, 226 Y1 4, 269.
2
7
5993
Cov X , Y 77.143*8.6 856.143 663.4298 192, 713.
7
192, 713
aˆ1 0, 094, bˆ1 8, 6 0, 094 77,143 1,349 .
2048,96
45, 265 4, 25491
r1 0, 094 0,997
4, 269 4, 266
r1 0,997 et R12 0,993 et 1 R12 0,007 0,7%.
73
Le second modèle est meilleur que le premier pour faire les prévisions car son coefficient de
détermination (99,3%) est plus élevé que dans le premier modèle (97,8%) qui a un point
aberrant.
Exercice 5
Exercice 6
Cov X , Y
( x x )( y y )
i i
55199, 40
aˆ i 1
6, 414
Var X 15
( x x )²
8606, 40
i
i 1
bˆ y ax
ˆ 654, 20 6, 4148,15 70, 20 203,954.
D’où la droite de régression y 6,614 x 203,954.
Calcul du coefficient de determination R²
15
( x x )²
i
8606, 40
X i 1
573, 76 23,95
15 15
15
( y y )²
i
454.592, 40
Y i 1
30306,16 174, 09
15 15
aˆ 6, 414 23,95
r x 0,88 , il y a une forte correlation entre x et y l’ajustement linéaire
y 174, 09
est fondé.
74
R² (0,88)² 0,78 et 1 R 2 0, 22 22% .
Pour 100.000.000F, x=100 et y 6, 414 100 654, 20 1295, 6 .
Pour 100.000.000F de dépense publitaire, le chiffre d’affaire éspéré sera de 1.295.600.000F
Bibliographie sélective
1) ANDERSON, SWEENEY, WILLIAMS, Statistiques pour l’économie et gestion,
Paris, Nouveaux Horizons/De Boeck, 2006
2) BOURSIN J.L., DURU G., Statistique Cours- Méthodes- Exercices, Paris, Vuibert,
1995.
3) CHAUVAT G., REAU J.-P., Statistiques descriptives, Exercices et corrigés, Paris,
Armand Colin, 1996.
4) GRAIS B. Méthodes statistiques, Paris, Dunod, 1998 (3e édition).
5) GAULTIER M., Statistique100 exercices corrigés avec résumés de cours, Paris,
Vuibert, 1997.
6) MASIERI W., Statistique et calcul des probabilités,Paris, Sirey, 1996 (7e édition).
7) REAU J.-P., CHAUVAT G., Probabilités & Statistiques Résumé des cours
exercices et problèmes corrigés QCM, Paris, Armand Colin, 1988,1999.
75