Aboud Soumia
Aboud Soumia
DÉPARTEMENT DE MATHÉMATIQUES
MASTER en Mathématiques
Option : Statistique
Par
ABOUD SOUMIA
Titre :
September 2020
Dédicace
pour réaliser ce modeste travail,qui est toujours avec moi le long de ma vie.
Je dédie ce travail à :
A mes très chère amis : Fayza, Nadia, Mouna, Fatima, khawla, samira, khadidja, Manal,
Sabrina.
. Soumia.
i
REMERCIEMENTS
Ibrahim-7
Mercie à notre "Dieu", notre guide, notre force, et la raison de notre existence, c’est lui
et qui nous a donné le povoir d’apprécier les choses, et qui nous a donné le courage et la
et
Nous remercions aussi toute personne ayant contribué, de prés ou de loin, à la réalisation
de ce travail.
Mercie à tous.
ii
Table des matières
Remerciements ii
Introduction 1
iii
1.7 Cumulée décroissante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 La loi du X 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
iv
Table des matières
3.6 Écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Conclusion 65
Bibliographie 67
v
Table des …gures
vi
Liste des tableaux
2.3 Table Calcul de la médiane quand les données sont groupées par valeurs. . . 21
3.3 Table Représenter groupe de personnes réparties par groupe d’âge X et par
sexe Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
vii
Liste des tables
3.4 Table le nombre de la Grise cardiaques, subies pas de hommes et des femmes
selon leur classé d’âge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
viii
Introduction
L
es statistiques sont l’une des importante branche en mathématiques, avec diverses
applications et ce sont de élément essentiel dans chaque thèse scienti…que.
L’action de dénombrer qui renvoie aux statistiques fût mentionnée, dans le saint Coran, Le
Très Haut dit " Alors que nous avons dénombré toutes choses écrit" Al Nabaa-29.
Les statistiques sont connus comme étant le savoir qui s’intéresse ou qui thèse dans un recueil
de données ; il les organise et les expose, puis il les analyse et donnée des résultats, Et c’est
sur cette base que les décision sont prises.
Cela comprend l’organisation et l’exposition des données, qui concernent une forme quel-
conque, en les simpli…ant dans des tableaux et diagrammes. Cette méthode est la première
utilisée dans les statistiques, les statistiques se divisent en deux parties :
2- Statistiques inférentielle : Est d’e¤ectuer des estimations et des prévisions à partir d’un
sous-ensemble de population.
Dans notre étude, nous nous intéresserons aux statistiques descriptives, qui à leur tour, sont
composées en deux catégories.
1
Introduction
deux variables.
Les questions qui se posent à travers l’étude du sujet des statistiques descriptives, sont nom-
breuses, parmi elles, par exemple :
Quel est l’intérêt des statistiques descriptives dans notre vie quotidienne ?
Les statistiques ont fait leur apparition, dans les anciennes époques, comme il a été cité dans
la Sunnah du prophète, que la paix d’Allah et le salut soit sur lui : "dénombrez moi combien
l’islam est prononcé" Recueilli par Muslim.
Et jusqu’à la …n du 19 ème siècle, les statistiques sont restées, de façon essentielle, parmi les
techniques du calcul (démographie, calcul des nombres des soldats, les armes...etc).
Vers la …n du 19 ème siècle, et en 1960, les statistiques ont été développées, et ont suivi le
développement général des sciences, mais surtout des maths et de la physique.
Une étudiante m’a précédé, des département de mathématiques en 2018 l’étude statistique
descriptive des reposait sur un seul variable et j’ajouterai dans ma dans cette thèse les
statistique descriptive deux variables.
Les caractéristiques de tendance centrale (mode, moyenne, médiane, quantiles, etc.),les ca-
ractéristiques de dispersion (variance, écart-type, coe¢ cient de variation, etc.), mesures de
forme (l’asymétrie, l’aplatissement), Le test du Chi-deux. Diagrammes. Exercices.
2
Introduction
nale, etc), deux variables qualitatives (le test du khi-deux, test d’indépendance, etc), deux
variables quantitatives (co¢ cient de corrélation, droite de régression, etc). Exercices.
3
Chapitre 1
La statistique est une méthode d’analyse des ensembles comportant un grand nombre d’élé-
ments. C’est une science qui permet de traiter et d’analyser les résultats des mesures e¤ectuées
sur les individus d’une population relativement un certain nombre de caractères. Les résultats
des mesures sont, en général, appelés observations.[Meghlaoui (2011)]
Les statistiques jouent un rôle de plus important dans tous les aspects de l’activité humaine,
il sert d’autres sciences et les aide à développer et à étendre des recherches scienti…ques
précises et solides, comme il est courmment utilisé dans, agriculture, administration des
a¤aires, physique et chimie....[Hachmi]
Dé…nition 1.1.1 La statistique : Est une branche des mathématiques appliquées qui a
pour objet l’étude des phénoménes mettant en jeu un grand nombre d’éléments, les statis-
tiques consistent en diverses méthodes de classement des données tels que les tableaux, les
histogrammes et les graphiques ensuite[Chekroun (2018)], analysez-le et interprétez les résul-
tats.
4
Chapitre 1.Généralités sur la statistique
breuses. Ces méthodes peuvent être numériques (tris, élaboration de tableaux, calcul de moyenne,
...) ou mener à des représentations graphique. Elle statistique descriptive se compose de deux
domaines distincts :
Unité statistique[Fabrice (2006)] : Les unités d’une population, que le critére soit qualita-
tif ou quantitatif. Peuvent étre présentées individuellement (c’est généralement le cas lorsque
les données sont saisies) ou regroupées. On appelle individu tout élément de la population
; il est noté ! (! dans )[Chekroun (2018)]:
Modalités[Chekroun (2018)] : Les modalités d’une variable statistique sont les di¤érentes
valeurs que peut prendre celle-ci une variable.
5
Chapitre 1.Généralités sur la statistique
Série statistique :[Dagnelie (2006)] Est une ensemble de valeure obtenues à l’observation
d’un phénoméne La forme la plus élémentaire de présentation des données statistiques re-
latives à une seul variable consiste en une simple énumération des observations par ordre
croissant :
x1 x2 ::: xi ::: xk
Tableau statistique :[Dagnelie (2006)]Est une méthode permettent de présenter les données
sous la forme numérique. Il peut être aussi bien utilisé pour représenter des données brutes
que des résultats statistiques.
Une variable est dite qualitative si ses di¤érentes modalités ne sont pas numérique [Goldfarb, Catherine (2
Ainsi : La situation matrimoniale, le nationalité, la profession,..., sont des variables les élé-
ments de C [Chekroun (2018)] sont représentés par autre chose que des chi¤res. Le a deux
catégories :
Elle dite ordinale quand les modalités peuventêtre naturellement ordonnées [Mémoire (2018)],
par exemple : grade, classe sociale,..., etc.
6
Chapitre 1.Généralités sur la statistique
Elle est dite nominale lorsque ses modalitésne peuvent être classées de façon naturelle [Mémoire (2018)]
par exemple : la variable couleur des yeux,..., etc.
Une variable est dite quantitative lorsqu’elle est intrinséquement numérique, une variable
quantitative peut être une variable statistique discréte ou continue [Goldfarb, Catherine (2011)].
Une variable statistique est dite discrète lorsqu’elle ne peut prendre que des valeure isolées
dans son intervalle de variation( représenté par nombres naturels N) comme "nombre de
maisons vendues par ville" [Goldfarb, Catherine (2011)].
Une variable statistique est dite continue lorsqu’elle peut prendre toutes les valeure à l’in-
térieur de son intervalle de variation( représenté par nombres décimaux Q) comme" revenu
brut" [Goldfarb, Catherine (2011)].
! fx1 ; x2 ; :::; xn g
X:
Card ( ) := N
7
Chapitre 1.Généralités sur la statistique
Dé…nition 1.4.1 [Chekroun (2018)] Pour chaque valeure xi , on pose par dé…[Link] a :
Dé…nition 1.4.2 [Fabrice (2006)] L’é¤ectif total N d’une valeure est la somme de l’e¤ectif
de cette valeure et de tous les e¤ectifs des valeure qui précédent. Pour chaque valeure xi , on
pose par dé…nition : [Chekroun (2018)]
X
k
N = n1 + n2 + ::: + nk ; N = ni = card( ): (1.2)
i=1
Dé…nition 1.5.1 [Chekroun (2018)] La fréquence relative est égale à la e¤ectifs divisée par
l’é¤ectif total. Pour chaque valeur xi , on pose par dé…nition :
ni
fi = (1.3)
N
Remarque 1.5.1 [Chekroun (2018)]On peut remplacer fi par fi 100 qui représente alors
un pourcentage où fi = est le pourcentage des ! tel que X (!) = xi .
-La valeur de la fréquence relative est toujour entre 0 et [Link] peut multiplier la fréquence
par 100, ainsi on obtient une fréquence exprimée en %, entre 0% et 100%.
ni
Pk
Propriété 1.5.1 [Chekroun (2018)] Soit fi dé…ni comme fi = N
, alors i=1 fi = 1, ou
Pk
i=1 fi (%) = 100, le cas des fréquences en pourcentage.
8
Chapitre 1.Généralités sur la statistique
Pk
Preuve. [Chekroun (2018)] Rappelons que i=1 ni = N . Ce qui implique que
X
k X
k
ni 1 X
k
fi = = ni = 1:
i=1 i=1
N N i=1
Quand les valeurs du caractère sont rangées dans l’ordre croissant [Chekroun (2018)], la
fréquence cumulée croissante F CC (ou e¤ectif cumulé croissant ECC) d’une valeure est la
somme des fréquences (ou e¤ectif) de cette valeur et de celles qui la précédent.
Quand les valeurs du caractère sont rangées dans l’ordre croissant [Chekroun (2018)], la
fréquence cumulée décroissante F CD (ou e¤ectif cumulé décroissante ECD) d’une valeur est
la somme des fréquence (ou e¤ectif) de cette valeur et de celles qui la suivent.
Les modalités d’un caractère qualitatif n’étant pas des ordonnées, on les représente généra-
lement par des graphiques qui utilisent des surfaces il existe deux types de représentations
fréquemment utilisées : représentation en cercle et rectangle [Leboucher, Marie (2013)].
Dans cette représentation les aires et par conséquent les angles au centre sont proportionnels
aux e¤ectifs (ou aux fréquences) des di¤érentes modalités [Leboucher, Marie (2013)]. En e¤et
9
Chapitre 1.Généralités sur la statistique
0
Modalités du caractère X E¤ectifs ni ECC Ni ECD Ni
0
x1 n1 N1 = n 1 N1 = nk + ::: + n1
0
x2 n2 N2 = n 1 + n 2 N2 = nk + ::: + n2
::: ::: ::: :::
0
xi ni Ni = n1 + ::: + ni Ni = nk + ::: + ni
::: ::: ::: :::
0
xk nk Nk = n1 + ::: + nk Nk = n k
Total N
ni
i = 360 = 360 fi (1.4)
N
Cette représentation fait …gurer les di¤érentes modalités du caractère sous forme de rectangle
dont la base est constante et dont la hauteur est proportionnelle à l’e¤ectif (ou à la fréquence)
[Leboucher, Marie (2013)].
Exemple 1.8.1 [Lethielleux, Chevalier (2017)]On s’intrésse à une série statistique du va-
riable "état civil" sur 22 personnes. On obtient le tableau suivant :
10
Chapitre 1.Généralités sur la statistique
Fig. 1.1 –Diagramme en secteurs et barres des e¤ectifs d’une variable qualitative
Dans le cas des séries statistiques discrètes il existe deux types de représentations graphiques.
11
Chapitre 1.Généralités sur la statistique
Tracer la courbe des fréquence cumulées croissantes. La fonction F pour une variable discrète
est constante par moroeaux, c’est une fonction en escalier.
Si :
12
Chapitre 1.Généralités sur la statistique
x 8F (x) = 1:
Fig. 1.2 – Diagramme en bâtonnets des e¤ectifs et fonction de répartition d’une variable
quantitative discrète
13
Chapitre 1.Généralités sur la statistique
Comme pour les caractère discrètes il existe pour les variable statistiques contines deux types
de représentation graphique.
Courbe cumulative :[Meghlaoui (2011)] Comme pour les variables discrètes, la courbe
cumulative ou histogramme des fréquences cumulées, est la représentation graphique de la
fonction cumulative ou fonction de répartition F (x).
14
Chapitre 1.Généralités sur la statistique
Fig. 1.3 –Histogramme des fréquences et fonction de répartition d’une variable quantitative
continue
15
Chapitre 2
Nous prenons un ensemble de données qui ont été fournies et prenons plusieurs mesures pour
analyser ces données. Nous devons connaître la raison de la collecte des données et quelles
échelles de mesure.
Il nous faut à présent traiter cet ensemble de données. Tout naturellment, cela commence par
les organiser, les regarder, les représenter graphiquement, regrouper celles qui se ressemblent,
élaborer les moyens de rassembler l’information sous une forme aisée à manipuler et à com-
muniquer ... bref, faire appel aux outils et méthodes de la statistique univariée l’étude d’une
seule variable, que celle-ci soit quantitative ou qualitative. La statistique univariée fait partie
de la statistique descriptive. [Université (2010)].
–Mesures de dispresion
–Mesures de forme
16
Chapitre [Link] descriptive univariée
Le mode
Dé…nition 2.1.1 [Hamdani (1988)]On dé…nit le mode comme étant la valeur de la variable
statistique à laquelle correspond le plus grand e¤ectif (ou fréquence) de la distribution statis-
tique. On l’appelle encore valeur dominante est la valeur la plus représentée d’une variable
quelconque dans une population donnée est noté Mo :
a) Cas d’une caractère statistique quantitative discrète La valeur modale est exacte
lorsque la variable statistique est discrète [Hamdani (1988)].
Il n’y a pas de mode car chaque valeur n’est répétée qu’une fois.
17
Chapitre [Link] descriptive univariée
Exemple 2.1.2 [Fabrice (2006)] :Le tableau suivant représente la distribution despoints de
mathématiques pour 30 éléves.
Tab. 2.1 –Table Notes d’examen de mathématiques par classes d’amplitudes égales
(ni ni 1 )
Mo = bi 1 + (bi bi 1 ) (2.1)
(ni ni 1 ) + (ni ni+1 )
1
Amplitude de classe : ai = (bi bi 1 )
bi 1 : Borné inférieure de la classe modale.
18
Chapitre [Link] descriptive univariée
Alors :
(18 7)
Mo = 10 + 5 = 12:115
(18 7) + (18 3)
Tab. 2.2 –Table Notes d’examen de mathématiques par classes d’amplitudes inégales
Dans ce cas, pour calculer le mode, il faut appliquer la formule(1:5); mais la dé…nition de
(ni ni 1 ) et de (ni ni+1 ) change, car il faut remplacer les e¤ectifs ni , par les amplitudes
ni
corrigées hi = ai
: Donc
(8:5 0:9)
Mo = 10 + (12 10) = 10:974
(8:5 0:9) + (8:5 0:5)
Remarque 2.1.1 [Hammed (2012)] Une distribution peut avoir un seul mode et on dit
qu’elle est unimodale, ou plusieurs modes et on dit qu’elle est multimodale.
La médiane
Dé…nition 2.1.2 [Hamdani (1988)] La médiane est dé…nie comme la valeur de la variable
statistique qui divise l’e¤ectif total en deux e¤ectifs égaux, est noté M e:
–Classer la série impair par ordre croissante de valeurs f4; 5; 8; 9; 11; 13; 25g
19
Chapitre [Link] descriptive univariée
–Localiser la valeur qui partage l’e¤ectif tatal en deux sous e¤ectifs égaux en appliquant la
formule
M e = x( N +1 ) (2.2)
2
C’est-à-dire ici M e = 9:
2-Soit la série pair de chi¤res des valeurs f1; 2; 3; 4; 6; 8; 12; 15; 25; 30; 36; 41g
N +1 (12+1)
Appliquer la formule 2
;c’est-à-dire ici 2
= [Link]i nous indique que l’intervalle médian
est constitué par les 6eme et la 7eme valeurs. La médiane est donc
1 n o
Me = x( N ) + x( N +1) (2.3)
2 2 2
(8 + 12)
Me = = 10
2
Pour déterminer la médiane, on repère 0:5 dans la colonne des fréquences cumulées F (x) ou
N
bien 2
dans la colonne des e¤ectifs cumulés N (x). Donc la médiane égale 11:
20
Chapitre [Link] descriptive univariée
xi ni fi F (x) N (x)
2 2 0:066 0:066 2
8 3 0:1 0:166 5
9 4 0:133 0:3 9
10 4 0:133 0:433 13
11 5 0:167 0:6 18
12 3 0:1 0:7 21
13 6 0:2 0:9 27
15 1 0:033 0:933 28
18 2 0:067 1 30
Tab. 2.3 –Table Calcul de la médiane quand les données sont groupées par valeurs.
xi ni N (xi )
[0 5[ 2 2
[5 10[ 7 9
[10 15[ 18 27
[15 20[ 3 30
" #
N
2
N (xi 1 )
M e = b i + ai (2.4)
ni
La médiane
15 9
M e = 10 + 5 18
= 11:67
Remarque 2.1.2 [Hammed (2012)] Le calcul de la médiane est basé sur l’ordre des observa-
tions et non sur leur valeur. la médiane est insensible aux données extrêmes. Dans le cas où
les données sont très di¤érentes, la médiane est une meilleure mesure de tendance centrale.
2
bi 1 = borne inférieure de la classe médiane.
N (xi 1 ) = E¤ectif cumulé strictement inférieur à xi :
xi = Classe médiane .
ai = Amplitude de la classe médiane.
21
Chapitre [Link] descriptive univariée
La moyenne arithmétique
Dé…nition 2.1.3 [Hamdani (1988)] Une moyenne arithmétique d’une variable statistique X
se dé…nit comme étant le rapport de la somme des valeurs prises par cette variable,divisée
par le nombre d’observations [Grais (1991)].
La moyenne arithmétique simple Est dit simple lorsque chaque modalité xi n’appa-
rissent qu’une seul fois
1 X
k
X= xi (2.5)
N i=1
La moyenne arithmétique pondérée Soit une variable statistique pouvant prendre les
x1 ; :::; xk aux quelles correspondent respectivement les e¤ectifs n1 ; :::::; nk :
1 X
k
X= ni xi (2.6)
N i=1
ni
On associe à chaque ni la fréquence fi = N
. Donc la moyenne arithmétique égale
X
k
X= fi xi (2.7)
i=1
Exemple 2.1.5 [Grais (1991)] Calculons le nombre moyenne de ventes par jour d’ouverture
d’un magasin suivant le nombre d’un appareil A.
1 X
k
X= ni xi (2.8)
N i=1
692
X= = 2:883
240
22
Chapitre [Link] descriptive univariée
Tab. 2.5 –Table Le nombre de ventes par jour d’ouverture d’un appareil A.
Exemple 2.1.6 [Grais (1991)] Considérons la distribution des ouvriers selon le salaire men-
suel net.
Tab. 2.6 –Table distribution des ouvriers selon le salaire mensuel net
1 X
k
X= ni ci (2.9)
N i=1
1
X= (206500) = 1404:76
147
Propriété 2.1.1 [Grais (1991)] La somme algébrique des écarts des observations à la moyenne
est nule.
3 bi +bi 1
Centres des classes : Ci = 2
23
Chapitre [Link] descriptive univariée
X
k
ni (xi X) = 0 (2.10)
i=1
X
k
ni (xi X) = n1 x1 + ::: + nk xk X(n1 + ::: + nk );
i=1
c’est-à-dire :
X
k X
k X
k
ni (xi X) = ni xi X ni
i=1 i=1 i=1
Or :
X
k
ni = N
i=1
et
X
k
ni xi = N X;
i=1
d’où :
X
k
ni (xi X) = N X NX = 0
i=1
1 X X
k k
n1 log x1 + ::: + ni log xi + ::: + nk log xk
log G = = ni log xi = fi log xi
n1 + ::: + ni + ::: + nk N i=1 i=1
4
log : Logarithme népérien.
24
Chapitre [Link] descriptive univariée
q Y
k
ni
G= N
xn1 1 xni i xnk k = xfi i oufi = (2.11)
i=1
N
1 X ni X 1
k k
1
= = fi
H N i=1 xi i=1
xi
N
H = Pk ni
(2.12)
i=1 xi
v v
u u k
u1 X k uX
Q=t ni x2i = t fi x2i (2.13)
N i=1 i=1
Propriété 2.1.3 [Grais (1991)]Il existe une relation d’ordre entre les moyennes :
25
Chapitre [Link] descriptive univariée
1)
p
5
p
5
G= 2 3 7 13 5 = 2730 = 4:867
5
H= 1 = 3:990
2
+ + + 17 +
1
3
1
5
1
13
r
1
Q= (2 2 + 3 3 + 5 5 + 7 7 + 13 13) = 7:155
5
1
X = (2 + 3 + 5 + 7 + 13) = 6:000
5
xmin = 2; xmax = 13
Alors 2:000 < 3:990 < 4:867 < 6:000 < 7:155 < 13:000
5
min : Munimun d’une fonction f (:):
max : Maximun d’une fonction f (:):
26
Chapitre [Link] descriptive univariée
Les caractéristique de la dispersion sont nombreuses [Fabrice (2006)], nous étudierons ici les
plus fréquemment utilisées : La variance, l’écart type, le coe¢ cient de varition, ....
Nous verrons également deux outils graphiques utiles pour l’analyse de la dispersion d’une
distribution : Le graphique “boîte à moustaches”, ainsi que la courbe de concentration.
L’étendue
Dé…nition 2.1.4 [Meghlaoui (2011)] L’étendue d’une distribution statistique, notée E, est
la di¤érence entre la plus grande et la plus petite des valeurs observées, ie.
Remarque 2.1.3 [Meghlaoui (2011)] La forme de la distribution entre les extrèrnes n’est
pas prise en compte. Donc, l’étendue est une caratéristique de dispersion imparfaite.
Les quantiles
Les quantiles sont généralisation de la notion de la médiane, qui représente un cas particulier.
27
Chapitre [Link] descriptive univariée
[Link] centiles (C1 ; :::; C99 ) on divise la population total en 100 e¤ectifs égaux.
[Link] milliles (M1 ; :::; M999 ) on divise la population statistique en 1000 e¤ectifs égaux.
le troisiéme quartile. Cet indice fournit un renseignement sur l’étalement des valeurs de part
et d’autre de la médiane. Contenant 50% d’observations.
neuvième décile. Cet indice fournit un renseignement sur l’étalement des valeurs de part et
d’autre de la médiane. Contenant 80% d’observations.
tions.
Remarque 2.1.4 [Meghlaoui (2011)] Ces diagrammes sont surtout utiles pour comparer ra-
pidement l’allure générale de plusieurs distributions.
28
Chapitre [Link] descriptive univariée
La variance
Dé…nition 2.1.7 [Fabrice (2006)] Soit une série de valeurs d’une variable X : (x1 ; x2 ; :::; xk ):
Soit les e¤ectifs associés : fn1 ; n2 ; ::; nk g : La variance de cette série s’écrit :
1 X
k
2
X = ni (xi X)2 (2.16)
N i=1
1 X
k
2
X = ni (xi X)2 (2.17)
N 1 i=1
2
V (xi ) = (xi ) 0 (2.18)
X
K
2
V (X) = fi x2i X (2.19)
i=1
29
Chapitre [Link] descriptive univariée
1 X
k
2
X = V (X) = ni (xi X)2
N i=1
Pk
ni (xi X)2
= i=1
N
Pk 2 2
i=1 ni (xi + X 2xi X)
=
N
1 X 1 X 1 X
k k k
2 2
= ni xi + ni X 2ni xi X
N i=1 N i=1 N i=1
X
k
ni 2 1 X
k
= x2i +X 2X xi
i=1
N N i=1
X
k
2
= fi x2i X
i=1
Preuve. [Leboucher, Marie (2013)] Soit Y = aX + b où a; b sont des nombres réels quelques.
!
On a Y = aX + b et yi = axi + b pour tout i = 1; k
7
f application de E dans K; f linaire si :
8(x; y) 2 E 2 ; 8 2 k;
f ( x + y) = f (x) + f (y)
30
Chapitre [Link] descriptive univariée
1 X
k
V (Y ) = ni (yi Y )2
N i=1
1 X
k
= ni (axi + b aX b)2
N i=1
1 X
k
= ni a2 (xi X)2
N i=1
1 X
k
2
=a ni (xi X)2
N i=1
= a2 V (X):
L’écart-type
p
X = V (X) (2.21)
Remarque 2.1.6 [Goldfarb, Catherine (2011)]Dans le cas d’une variable statistique conti-
nue, on ramène la valeur de chaque individu au milieu de sa classe d’a¤ectation. Là encore,
le choix des bornes des classes extrêmes non limitées doit être fait avec précaution.
31
Chapitre [Link] descriptive univariée
Dé…nition 2.1.9 [Grais (1991)]Le coe¢ cient de variation est dé…ni comme le rapport de
l’écart-type à la moyenne :
X
CV = (2.23)
X
Exemple 2.1.8 Lors d’une contrôle de connaissances, on fait subir à étudiants un test noté
sur 60 points. La série des notes obtenues est la suivante :
30 45 45 20 40 25 34 50
20 25 30 34 40 45 45 50
–Les quartiles
32
Chapitre [Link] descriptive univariée
1. L’asymétrie d’une distribution peut être approchée par une comparaison entre le mode, la
médiane et la moyenne arithmétique.
2. L’aplatissement peut être approché par l’étude des observations aux alentours du mode :
plus le nombre d’individus ayant une valeur proche du mode de la distribution est élevé, plus
la courbe sera concentrée et plus l’aplatissement sera faible.[Monino et al (2010)]
33
Chapitre [Link] descriptive univariée
Les moments non centrés et les moments centrés d’ordre p: [Monino et al (2010)]
1 X X
k k
p
mp = ni xi = fi xpi (2.24)
N i=1 i=1
Les moment centrés d’ordre p Soit la distribution statistique (xi ; ni ) où i 2 f1; :::; [Link]
appelle moment centré (sur la moyenne arithmétique) d’ordre p de la variable statistique X,
la quantité dé…nie par :
1 X X
k k
L’asymétrie
2
3
AP = 3
(2.26)
2
Où m est le moment centré sur la moyenne arithmétique. Ce coe¢ cient s’écrit d’une façon
plus simple en utilisant les moments non centrés.
Le coe¢ cient d’asymétrie de Fisher C’est la racine carrée du coe¢ cient de Pearson :
s
p 2
3 3
AF = A P = 3
= 3
(2.27)
2 x
2
où X = V (X) = 2
34
Chapitre [Link] descriptive univariée
L’aplatissement[Monino et al (2010)]
4 4
APP = 2
= 4
(2.28)
2 x
4
APF = APP = 2
3 (2.29)
2
35
Chapitre [Link] descriptive univariée
2.2.1 La loi du X 2
Dé…nition 2.2.1 [Grammont (2003)] Soient x1 ; :::; xk des variables aléatoires indépendantes
de même loi normal N (0; 1),8 On appelle loi du X 2 à k degrés de liberté, la loi de la variable
aléatoire :
X
k
Xk2 = x2i (2.30)
i=1
X
k
(ni N pi )2
2
d = (2.31)
i=1
N pi
Exemple 2.2.1 [Meraghni (2017)] : On veut tester si un dé n’est pas truqué. Pour cela on
lance le dé 60 fois et on obtient les résultats suivants
8 2 2
X suit la loi normalde paramètres m et note N (m; ) si X ! N (0; 1) la loi normale centrée réduite.
36
Chapitre [Link] descriptive univariée
Pk (ni N pi )2 (15 10)2 (7 10)2 (4 10)2 (11 10)2 (6 10)2 (17 10)2
d2 = i=1 N pi
= 10
+ 10
+ 10
+ 10
+ 10
+ 10
= 13:6
37
Chapitre 3
38
Chapitre 3. Statistique descriptive bivarié
Dé…nition 3.1.1 [Dagnelie (2006)] Les observation relatives à deux variables se présentent
le plus simplement sous la forme d’une série statistique double, c’est-à-dire de la suite des N
couples de valeurs observées (xi ; yj ), dans l’ordre croissant d’une des deux variables.
Notations
Les deux variables X et Y sont mesurées simultanément sur chacun des N individus de la
population. On notera nij l’e¤ectif correspondant au couple (xi ; yj ).
X
m
ni: = nij (3.2)
j=1
39
Chapitre 3. Statistique descriptive bivarié
X
k
n:j = nij (3.3)
i=1
X
k X
m X
k X
m
N= nij = ni: = n:j = n:: (3.4)
i=1 j=1 i=1 j=1
On peut, par un calcul semblable à celui réalisé dans le cas univarié, mesurer la fréquence
d’un couple, en rapportant sa fréquence sur la taile de la population.[Chekroun (2018)]
nij
fij = (3.5)
N
40
Chapitre 3. Statistique descriptive bivarié
ni:
fi: = (3.6)
N
n:j
f:j = (3.7)
N
X
k X
m X
k X
m
1= fij = fi: = f:j = f:: (3.8)
i=1 j=1 i=1 j=1
1)
ni:
fi: = i = 1; 2; :::; k (3.9)
N
2)
n:j
f:j = j = 1; 2; :::; m (3.10)
N
X
m X
m
nij ni:
fi: = fij = =
j=1 j=1
N N
X
k X
k
nij n:j
f:j = fij = =
i=1 i=1
N N
[Fabrice (2006)]
41
Chapitre 3. Statistique descriptive bivarié
X nY Homme femme
[0 18[ 15 13
[18 45[ 7 15
Tab. 3.3 –Table Représenter groupe de personnes réparties par groupe d’âge X et par sexe
Y
15 + 13 + 7 + 15 = 50
P
n:: = ki=1 ni: = n1: + n2: = 28 + 22 = 50
P
n:: = m j=1 n:j = n:1 + n:2 = 22 + 28 = 50
Fréquences marginales de X :
n1: 28
f1: = n::
= 50
= 0:56
n2: 22
f2: = n::
= 50
= 0:44
Fréquences marginales de Y :
n:1 22
f:1 = n::
= 50
= 0:44
n:2 28
f:2 = n::
= 50
= 0:56
42
Chapitre 3. Statistique descriptive bivarié
caractères
Une série statistique double dont les caractères X et Y sont quantitative est représentée par
les points Mi de coordonnées (xi ; yi ) dans un repère orthogonal du plan. Cette représentation
s’appelle nuage de points de la série statistique double.
Si les deux variable X et Y sont qualitatives, alors les données observées sont une suite
de couples de variable (x1 ; y1 ); :::; (xi ; yj ):::; (xN ; yN ), il n’est pas possible, dans ce cas, de
représenter les deux caractères de façon absolument symétrique.
La variable X :
1 X X
i=k i=k
X= ni: xi = fi: xi (3.11)
N i=1 i=1
La variable Y :
43
Chapitre 3. Statistique descriptive bivarié
1 X X
i=m i=m
Y = n:j yj = f:j yj (3.12)
N j=1 j=1
Remarque 3.5.1 [Goldfarb, Catherine (2011)]Moyenne d’une somme de deux variables sta-
tistiques X + Y = X + Y
La variable X :
1 X X
i=k i=k
2 2
V (X) = X = ni: (xi X) = fi: (xi X)2 (3.13)
N i=1 i=1
La variable Y :
j=m j=m
2 1 X 2
X
V (Y ) = Y = n:j (yj Y) = f:j (yj Y )2 (3.14)
N j=1 j=1
Propriété 3.5.1 Dans le cas où les séries ou les variables aléatoires X et Y sont indépen-
dantes,1 on a :
V (X + Y ) = V (X) + V (Y )
3.6 Écart-type
On utilise les carrés des écarts et non les écarts eux-mêmes a…n d’éviter une correction
fallacieuse entre des écarts positifs et négatifs. L’usage de l’écart moyen arithmétique est très
rarement utilisé car peu opérationnel de par les valeurs absolues et son absence de propriétés
additives en présence de variables indépendantes.
44
Chapitre 3. Statistique descriptive bivarié
La variable X :
p
X = V (X) (3.15)
La variable Y :
p
Y = V (Y ) (3.16)
X=Y 1 4 ni:
2 5 7 12
8 2 12 14
n:j 7 19 26
2 12 4 48
8 14 64 896
2 1
Pi=k 1
Pi=k 1
X = N i=1 ni: (xi X)2 = N i=1 ni: x2i (X)2 = 26
(48 + 896) (5:2308)2 = 8:9464
p
X = 8:9464 = 2:9911
45
Chapitre 3. Statistique descriptive bivarié
1 7 1 7
4 19 16 304
2 1
Pj=m 1
Pj=m 1
Y = N j=1 n:j (yj Y )2 = N j=1 n:j yj2 (Y )2 = 26
(7 + 304) (3:1923)2 = 1:7708
p
Y = 1:7708 = 1:330 7
3.7 Covariance
i=k j=m
1 XX
cov(X; Y ) = nij (xi X)(yj Y) (3.17)
N i=i j=1
Dans certaines situations il arrive que que les observations d’une population suivant deux
caractères(X; Y ) soient appariées, i.e. les observations sont disponibles sous forme d’une suite
(xi ; yi ); i = 1; 2; :::; N , alors dans cette situation la covariance est dé…nie telle que :
1 X 1 X
i=N i=N
cov(X; Y ) = (xi X)(yi Y)= xi yi XY (3.19)
N i=i N i=1
46
Chapitre 3. Statistique descriptive bivarié
cov(X; Y ) = cov(Y; X)
cov(X; X) = V (X)
V (X + Y ) = V (X) + V (Y ) + 2cov(X; Y )
On considère une population sur laquelle on étudie deux variables qualitatives observées
simultanément sur N individus [Vessereau (1965)].
On peut alors calculer les critères classiques du khi-deux X 2 de Pearson , ou encore le coef-
…cient de corrélation.
Lorsque les séries sont qualitatives, il arrive que les modalités d’un des deux caractères
soient ordinales( voir le chapitre1) [Fabrice (2006)], autrement dit que l’on puisse opérer un
classement sur ces modalités. Dans ce cas, au lieu de calculer la corrélation entre les valeurs
comme on le fait pour une variable, on calcule la corrélation entre les rangs des modalités. On
calcule alors un coe¢ cient appelé coe¢ cient de corrélation de rang de SPEARMAN.
La formule :
47
Chapitre 3. Statistique descriptive bivarié
P
6 N 2
i=1 di
rsp = 1 (3.20)
N (N 2 1)
Dé…nition 3.8.1 [Fabrice (2006)] Lorsque les caractéres sont qualitatives l’étude de la cor-
rélation se fait par un test statistique développé par Karl PEARSONS et appelé test d’in-
dépendance du "Khi-deux".
prend ses valeurs dans l’ensemble f1; :::; kg (resp:f1; :::; mg). Si pij = P (X = i; Y = j), on
Le problème qui nous intéresse dans ce paragraphe est de tester l’indépendance des variables
X et Y .
[Meraghni (2017)]
8i = 1; :::; k; 8j = 1; :::; m; Pij = Pi: P:j (3.21)
On dé…nit la quantité
48
Chapitre 3. Statistique descriptive bivarié
Tab. 3.4 – Table le nombre de la Grise cardiaques, subies pas de hommes et des femmes
selon leur classé d’âge
X
m X
k
(nij uij )2
2
d = (3.22)
j=1 i=1
uij
Exemple 3.8.1 [Meraghni (2017)] Le tableau suivant donnée le nombre de Grise cardiaques,
subies pas de hommes et des femmes selon leur classé d’âge pour un échantillon de 200(N =
200) personnes.
où
X :l’age) k = 4
Y :la sexe) m = 2
par dé…nition :
X
m X
k
(nij uij )2
2
d =
j=1 i=1
uij
49
Chapitre 3. Statistique descriptive bivarié
20 110
u41 = 200
= 11
20 90
u42 = 200
=9
par dé…nition :
P Pk (nij uij )2
d2 = m j=1 i=1 uij
:G4
On s’intéresses à une statistique ayant deux dimensions que nous désignons par les variables
X et Y .On veut savoir si les deux variables sont liés par une liaison fonctionnelle du type
Y = f (X) (c’est-à-dire que l’on peut prévoir les valeurs de Y à partir des valeurs de X), ou
X = f (Y ) (c’est-à-dire que l’on peut prévoir les valeurs de X à partir des valeurs de Y ):
Dé…nition 3.9.1 [Meghlaoui (2011)] On appelle coe¢ cient de corrélation de deux variables
statistiques X et Y et on le note Corr(X; Y ) ou , la quantité dé…nie telle que :
cov(X; Y )
r = corr(X; Y ) = (3.23)
X Y
Remarque 3.9.1 [Hamdani (1988)] Le coe¢ cient de corrélation r est, à une constante prés,
le cosinus de l’angle entre les vecteurs X et Y :
On pour tout a; b; x0 ; y0 ; 2 !
50
Chapitre 3. Statistique descriptive bivarié
cov(aX + x0 ; bY + y0 ) ab cov(X; Y )
r(aX + x0 ; bY + y0 ) = = (3.24)
aX+x0 bY +y0 jabj X Y
8 9
>
< >
+r(X; Y ) si a et b de méme signe =
=
>
: r(X; Y ) si a et b de signe opposé >
;
–Si r = 0, il y a indépendance linéaire entre X et Y (mais il peut exister une autre forme
de dépendance):
–0 < jrj < 1 traduit une dépendance linéaire d’autant plus forte que jrj est grand.
Dans le cas où on peut mettre en évidence l’existence d’une relation linéaire signi…cative entre
deux caractères quantitatifs continus X et Y (la silhouette du nuage de points est étirée dans
une direction), on peut chercher à formaliser la relation moyenne qui unit ces deux variables
à l’aide d’une équation de droite l’idée est de transformer un nuage de point en une droite.
Celle-ci doit être la plus proche possible de chacun des points. On cherchera donc à minimiser
les écarts entre les points et la droite.
En général, les données prennent la forme de N couples (x1 ; y1 ); (x2 ; y2 ); :::; (xN ; yN ) que l’on
peut représenter par autant de points sur un plan cartésien. L’équation d’une droite est de
la forme
Y = aX + b (3.25)
Soit une droite donnée Y = a + bX, et soit d1 ; d2 ; :::; dN les distances verticales entre les
points et la droite. Ces distances sont représentées par les traits verticaux.
51
Chapitre 3. Statistique descriptive bivarié
La somme des carrés de ces distances servira de mesure globale de la distance entre les points
et la droite. On dé…nit formellement la distance D entre les points et la droite par :
X
D = d21 + d22 + ::: + d2N = d2i (3.26)
y^i = axi + b
et
X 2
X
N X
N
2
D= jyi y^i j = (yi y^i ) = (yi axi b)2 = f (a; b) (3.28)
i=1 i=1
Nous souhaitons que cette distance soit petite : plus elle est petite, mieux la droite est ajustée
aux données. Puisque notre objectif est de trouver une droite qui s’ajuste le mieux possible
aux données, nous devons chercher la droite pour laquelle la distance D est minimale.
Propriété 3.9.1 [Meghlaoui (2011)] Soient X et Y deux variables statistiques dé…nies sur
la même population. La fonction numérique dé…nie sur R2 par l’équation (3:28) admet un
minimum au point (a; b) tel que :
cov(X; Y )
a= (3.29)
V (X)
b=Y aX (3.30)
52
Chapitre 3. Statistique descriptive bivarié
@f (a;b)
@a
=0
(3.31)
@f (a;b)
@b
=0
X
N
f (a; b) = (yi axi b)2
i=1
@f (a; b) X
N
= 2 (yi axi b)
@b i=1
XN X
N X
N
= 2 yi + 2a xi + 2b 1=0
i=1 i=1 i=1
X
N X
N
1 X
N
1 X
N
= yi a xi bN = yi a xi b=0
i=1 i=1
N i=1 N i=1
alors
b=Y aX
@f (a; b) X
N
= 2 xi (yi axi b)
@a i=1
XN X
N X
N
= 2 xi yi + 2a x2i + 2b xi = 0
i=1 i=1 i=1
53
Chapitre 3. Statistique descriptive bivarié
X
N X
N X
N
xi yi a x2i b xi = 0
i=1 i=1 i=1
X
N X
N X
N
xi yi = a x2i + (Y aX) xi
i=1 i=1 i=1
XN XN
2
xi yi = a x2i + N Y X N aX
i=1 i=1
XN XN
2
xi yi = a( x2i NX ) + NY X
i=1 i=1
alors
PN
i=1 xi yi NY X
a= P N 2
i=1 x2i NX
Sachant que :
N cov(X; Y ) cov(X; Y )
a= =
N V (X) V (X)
cov(X;Y ) y
Remarque 3.9.2 [Meghlaoui (2011)] a = V (X)
= corr(X; Y ) x
En e¤et
cov(X;Y )
a= x x
y
y
= f cov(X;Y
x y
)
g y
x
= corr(X; Y ) x
y
54
Chapitre 3. Statistique descriptive bivarié
X Y
Observation Années Revenu Consommation
1 2005 238 199
2 2006 257 208
3 2007 270 221
4 2008 290 237
5 2009 303 254
6 2010 319 268
7 2011 333 280
8 2012 351 293
9 2013 369 307
10 2014 387 323
Total 3117 2590
Tab. 3.5 –Table Représenter relation entre la consommation et revenu des ménages
Solution 3.9.1 :
1) Calcul la covariance
P Pi=N
cov(X; Y ) = N1 i=N
i=i (xi X)(yi Y ) =
1
N i=1 xi yi XY = 1
10
826039 311:7 259 = 1873:6
Alors
1873:6
r= 46:598 40:289
= 0:998
55
Chapitre 3. Statistique descriptive bivarié
Y = 0:863X [Link]
56
Chapitre 4
Exemple 4.1.1 Le tableau suivant représente l’évolution du virus Corona en Algérie pour
le mois de Ramadan et Shawwal
57
Chapitre [Link] R
[1; 5] 4 3 642
Total 8913
Solution 4.1.1 :
x=c(3,8,13,18,23,28,33,38,43,48,53,58)
n=c(642,825,895,884,948,912,884,629,528,544,570,652)
Y=rep(x,n)
N=sum(n)
hist(Y,xlab="x",ylab="E¤ectifs",main="")
segments(20,948,25,912,col=2)
segments(20,884,25,948,col=2)
arrows(x0=23.25,y0=0,x1=23.25,y1=925,col="blue")
text(23.25,0,labels="mode",col="blue")# Mode
58
Chapitre [Link] R
Commentaire :
Hypothèses :
En langage R
median(Y)# Le mediane
[1] 28
mean(Y)# La moyenne
[1] 28.42242
En langage R
59
Chapitre [Link] R
max(Y)# Maximum
[1] 58
min(Y)# Minimum
[1] 3
E=max(Y)-min(Y)# L’étendue
[1] 55
quantile(Y)#Les quartiles
0% 25% 50% 75% 100%
3 13 28 43 58
IQR(Y)# Intervalle interquartile
[1] 30
var(Y)# La variance
[1] 270.1509
[1] 270.1812
sqrt(N*var(Y)/(N-1))# Lécart-type s2
[1] 16.43719
sd(Y)# L’écart-type
[1] 16.43627
[1] 0.5782853
3) Mesures de forme :
En langage R
[1] 0.05981674
60
Chapitre [Link] R
[1] 0.2445746
Remarque 4.1.1 :
Nous remarquons que : AP' 0 (ou AF est nul) alors la disribution symétrique! Mo Me
X:
En langage R
[1] 1.983556
[1] -1.016444
Remarque 4.1.2 Nous remarquons que : APP 3 (ou APF 0) alors la courbe platykurtique.
résumé
Exemple 4.2.1 On veur étudier la liaison entre la consommation et revenu des ménages,
pour cela vous avez ci-dessous le tableau des données.
61
Chapitre [Link] R
X Y
Tab. 4.2 –Table Représenter relation entre la consommation et revenu des ménages
Solution 4.2.1 :
En langage R :
> Revenu=c(238,257,270,290,303,319,333,351,369,387)
> Consommation=c(199,208,221,237,254,268,280,293,307,323)
> N=length(Consommation)
[1] 311.7
[1] 259
62
Chapitre [Link] R
[1] 2171.41
[1] 2412.678
[1] 1623.2
[1] 1803.556
[1] 46.59839
[1] 49.11902
[1] 40.28896
> sd(Consommation)
[1] 42.46829
[1] 1873.6
[1] 0.9979756
Remarque 4.2.1 Nous remarquons que : jrj ' 1 alors il existe une relation linéaire entre
X et Y:
En langage R :
> a=c12/v1
63
Chapitre [Link] R
[1] 0.8628495
> b=mean(Consommation)-a*mean(Revenu)
[1] -9.950184
En langage R :
> plot(Revenu,Consommation)
> lines(x,0.863*x-9.950)
64
Conclusion
N
ous sommes arrivés au terme de la thèse scienti…que liée aux statistiques descrip-
tives. J’ai essayé autant que possible de développer ce sujet. De nombreux exemples
simples et clairs ont été utilisés pour transmettre des informations, des technologies modernes
telles que Logicial R ont été utilisées pour résoudre le problème dans les plus brefs délais et
des graphiques ont été utilisés, bien qu’ils n’aient rien à voir avec des concepts mathéma-
tiques, mais ils illustrent des concepts mathématiques dans Mindful People, en particulier
ceux qui n’étudient pas Statistiques.
Mon objectif principal dans cette thèse était de déterminer l’importance des statistiques
descriptives dans notre vie quotidienne.
La descriptive des statistiques nous aide à rendre beaucoup de choses plus faciles. Le résultat
est négatif à moins que les informations ne soient inexactes, nous devons con…rmer la source.
De nombreux aspects peuvent être ajoutés, car le sujet des statistiques descriptives est vaste,
nous proposons :
Une étude descriptive deux variables dans le cas d’une variable quantitative et d’une autre
variable qualitative.L’étude des statistiques descriptives pour plusieurs variables.
65
Conclusion
Al-Shafei, que Dieu ait pitié de lui, a dit : "La connaissance n’est pas préservée, mais la
connaissance est béné…que."
66
Bibliographie
[Alalouf et al (2002)] Alalouf, Serge, Denis Labelle, and Jean Ménard. Intro-
duction à la statistique appliquée. Loze-Dion, 2002.
67
Bibliographie
[Lethielleux, Chevalier (2017)] Lethielleux, M., & Chevalier, C. (2017). Exercices de sta-
tistique et probabilités-3e éd. : Avec rappels de cours.
Dunod.
68
Bibliographie
69
Annexe : Abréviations et Notations
Les di¤érentes abréviations et notations utilisées tout au long de ce mémoire sont expliquées
ci-dessous :
Symbole Signi…cation
: Population l’ensemble sur lequel porte notre étude statistique.
! : Individu tout élément de la population :
V:S : La variable statistique.
X : Caractère.
C : Ensemble des valeurs du caracère X:
N : La taille d’un population ou e¤ectif total.
N : Ensemble des nombres entiers naturels.
Q : Ensemble des nombres entiers décimaux.
Card( ) : Le cardinal : Nombre d’éléments de l’ensemble
:= : Est dé…ni comme étant (symbole d’a¤ectation):
ni : E¤ectif observé dans la classe i
Pk
i=1 : La somme pour i variant de 1 à k.
f : Fonction de densitée.
ECC : E¤ectif cumulé croissant.
70
Annexe B : Abréviations et Notations
71