0% ont trouvé ce document utile (0 vote)
138 vues80 pages

Aboud Soumia

COURS DE PROBABILITÉ ET STATISTIQUES

Transféré par

benidedieubinye
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
138 vues80 pages

Aboud Soumia

COURS DE PROBABILITÉ ET STATISTIQUES

Transféré par

benidedieubinye
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

République Algérienne Démocratique et Populaire

Ministère de l’Enseignement Supérieur et de la Recherche Scienti…que

UNIVERSITÉ MOHAMED KHIDER, BISKRA

FACULTÉ des SCIENCES EXACTES et des SCIENCES de la NATURE et de la VIE

DÉPARTEMENT DE MATHÉMATIQUES

Mémoire présenté en vue de l’obtention du Diplôme :

MASTER en Mathématiques

Option : Statistique

Par

ABOUD SOUMIA

Titre :

Statistique descriptive des données …nancière


Membres du Comité d’Examen :
Dr. SAYAH ABDALLAH UMKB Président

Dr. BRAHIM BRAHIMI UMKB Encadreur

Dr. SOURAYA KHEREDDINE UMKB Examinateur

September 2020
Dédicace

A vant tout je remarcie mon "Dieu" qui me donne la patience et la force

pour réaliser ce modeste travail,qui est toujours avec moi le long de ma vie.

Je dédie ce travail à :

A l’âm pure ma mère Sarhouda.

A mon très cher père Mouhammed.

A mon chère frères : Thabet, Issam, Sami.

A mes très chère amis : Fayza, Nadia, Mouna, Fatima, khawla, samira, khadidja, Manal,
Sabrina.

Tous mes amis qui vivent à BISKRA ou ailleurs.

. Soumia.

i
REMERCIEMENTS

Au nom de Dieu le Miséricordieux

"Si vous êtes reconnaissants, très certainement j’augmenterai pour vous..."

Ibrahim-7

Mercie à notre "Dieu", notre guide, notre force, et la raison de notre existence, c’est lui

qui nous a fait comprendre le but de cette vie,

et qui nous a donné le povoir d’apprécier les choses, et qui nous a donné le courage et la

voloné pour terminer ce travail.

Tout d’abord, je tiens à exprimer toute ma reconnaissance à mon encadreur

Monsieur le Dr. BRAHIM BRAHIMI.

Je le remercie pour sa patience, ses orientations et conseils.

J’adresse aussi mes remerciements aux membres du Jury

Monsieur le [Link] ABDALLAH

et

Madame le Dr. SOURAYA KHEREDDINE.

Nous remercions aussi toute personne ayant contribué, de prés ou de loin, à la réalisation

de ce travail.

Mercie à tous.

ii
Table des matières

Remerciements ii

Table des matières iii

Table des …gures vi

Liste des tables vii

Introduction 1

1 Généralités sur la statistique 4

1.1 Dé…nitions fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Concept de base statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Type du caractère . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.1 Les caractères qualitatives . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.2 Les caractères quantitatives . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 E¤ectif partiel -E¤ectif total . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4.1 E¤ectif partiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.4.2 E¤ectif total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.5 Fréquence partielle (fréquence relative) . . . . . . . . . . . . . . . . . . . . . 8

1.6 Cumulée croissante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

iii
1.7 Cumulée décroissante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.8 Représentation graphique des séries statistiques . . . . . . . . . . . . . . . . 9

1.8.1 Représentation graphique des caractères qualitatives . . . . . . . . . . 9

1.8.2 Représentation graphique des caractères quantitatives . . . . . . . . . 11

2 Statistique descriptive univariée 16

2.1 Mesures descriptives dans les statistiques . . . . . . . . . . . . . . . . . . . . 16

2.1.1 Les caractéristiques de tendance centrale . . . . . . . . . . . . . . . . 17

2.1.2 Les caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . 27

2.1.3 Mesures de forme : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2 Le test du Chi-deux(X 2 ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.2.1 La loi du X 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.2.2 E¤ectif théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.2.3 Le test du X 2 d’ajustement : . . . . . . . . . . . . . . . . . . . . . . 36

3 Statistique descriptive bivarié 38

3.1 Série statistique double . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2 E¤ectif dans le cas bivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2.1 E¤ectifs joints . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2.2 E¤ectifs marginaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.2.3 Tableaux des e¤ectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3 Fréquence dans le cas bivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.1 fréquences jointes : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.2 Fréquences marginales . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3.3 Tableaux des fréquences : . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4 Représentations graphiques des distributions deux caractères . . . . . . . . . 43

iv
Table des matières

3.4.1 Cas des caractères quantitatives . . . . . . . . . . . . . . . . . . . . . 43

3.4.2 Cas des caractères qualitatives . . . . . . . . . . . . . . . . . . . . . . 43

3.5 La moyenne et la variance marginale . . . . . . . . . . . . . . . . . . . . . . 43

3.5.1 La moyenne marginale . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.5.2 La variance marginale . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.6 Écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.7 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.8 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.8.1 Coe¢ cient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.8.2 Le test du khi-deux de PEARSONS . . . . . . . . . . . . . . . . . . . 48

3.8.3 test d’indépendance du "Khi-deux" . . . . . . . . . . . . . . . . . . . 48

3.8.4 E¤ectif théorique deux variable . . . . . . . . . . . . . . . . . . . . . 48

3.9 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.9.1 Coe¢ cient de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.9.2 Droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4 Application avec Logiciel R 57

4.1 Statistique descriptive univariée . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.2 Statistique descriptive bivarié . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4.2.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . 61

Conclusion 65

Bibliographie 67

Annexe B : Abréviations et Notations 70

v
Table des …gures

1.1 Diagramme en secteurs et barres des e¤ectifs d’une variable qualitative . . . 11

1.2 Diagramme en bâtonnets des e¤ectifs et fonction de répartition d’une variable


quantitative discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3 Histogramme des fréquences et fonction de répartition d’une variable quanti-


tative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.1 Mode d’une caractère statistique quantitative discrète . . . . . . . . . . . . . 18

2.2 Médiane quand N est impair . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3 Boîtes à moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.4 Asymétrie d’une distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.1 Histogramme des e¤ectifs et le mode . . . . . . . . . . . . . . . . . . . . . . 59

4.2 Le droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

vi
Liste des tableaux

1.1 Table statistique d’un caractère qualitatifs . . . . . . . . . . . . . . . . . . . 10

1.2 Table statistique d’un caractère qualitatifs . . . . . . . . . . . . . . . . . . . 10

1.3 Table de stasti pour l’état civil . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4 Table statistique d’un caractère quantitatif discrète . . . . . . . . . . . . . . 12

1.5 Table la distribution de 90 familes selon le nombre d’enfants. . . . . . . . . . 12

1.6 Table statistique d’un caractère quantitative continue . . . . . . . . . . . . . 14

1.7 Table de stasti pour mesure la taille . . . . . . . . . . . . . . . . . . . . . . 14

2.1 Table Notes d’examen de mathématiques par classes d’amplitudes égales . . 18

2.2 Table Notes d’examen de mathématiques par classes d’amplitudes inégales . 19

2.3 Table Calcul de la médiane quand les données sont groupées par valeurs. . . 21

2.4 Table Calcul de la médiane par classes . . . . . . . . . . . . . . . . . . . . . 21

2.5 Table Le nombre de ventes par jour d’ouverture d’un appareil A. . . . . . . 23

2.6 Table distribution des ouvriers selon le salaire mensuel net . . . . . . . . . . 23

2.7 Table Calcul la distance de khi-deux . . . . . . . . . . . . . . . . . . . . . . 37

3.1 Table E¤ectif dans le cas bivarié . . . . . . . . . . . . . . . . . . . . . . . . 40

3.2 Table Fréquence dans le cas bivarié . . . . . . . . . . . . . . . . . . . . . . . 42

3.3 Table Représenter groupe de personnes réparties par groupe d’âge X et par
sexe Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

vii
Liste des tables

3.4 Table le nombre de la Grise cardiaques, subies pas de hommes et des femmes
selon leur classé d’âge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.5 Table Représenter relation entre la consommation et revenu des ménages . . 55

4.1 Table représente l’évolution du virus Corona en Algérie . . . . . . . . . . . . 58

4.2 Table Représenter relation entre la consommation et revenu des ménages . . 62

viii
Introduction

L
es statistiques sont l’une des importante branche en mathématiques, avec diverses
applications et ce sont de élément essentiel dans chaque thèse scienti…que.

L’action de dénombrer qui renvoie aux statistiques fût mentionnée, dans le saint Coran, Le
Très Haut dit " Alors que nous avons dénombré toutes choses écrit" Al Nabaa-29.

Les statistiques sont connus comme étant le savoir qui s’intéresse ou qui thèse dans un recueil
de données ; il les organise et les expose, puis il les analyse et donnée des résultats, Et c’est
sur cette base que les décision sont prises.

Cela comprend l’organisation et l’exposition des données, qui concernent une forme quel-
conque, en les simpli…ant dans des tableaux et diagrammes. Cette méthode est la première
utilisée dans les statistiques, les statistiques se divisent en deux parties :

1- Statistiques descriptives : Est un ensemble de méthodes permettant de décrire, présenter,


résumer des données souvent trés nombreuses.

2- Statistiques inférentielle : Est d’e¤ectuer des estimations et des prévisions à partir d’un
sous-ensemble de population.

Dans notre étude, nous nous intéresserons aux statistiques descriptives, qui à leur tour, sont
composées en deux catégories.

1- La statistique descriptive univariée : Correspond à l’analyse d’un seul caractère, c’est


l’étude de la population selon une seule variable.

2- La statistique descriptive multivariées : Les analyses multivariées, c’est l’étude de la po-


pulation à plusieurs [Link] statistique descriptive bivariées sont des cas particuliers à

1
Introduction

deux variables.

Les questions qui se posent à travers l’étude du sujet des statistiques descriptives, sont nom-
breuses, parmi elles, par exemple :

Qu’est-ce que les statistiques descriptives ?

Quel est l’intérêt des statistiques descriptives dans notre vie quotidienne ?

Quelles sont les étapes des statistiques descriptives ?

Les statistiques ont fait leur apparition, dans les anciennes époques, comme il a été cité dans
la Sunnah du prophète, que la paix d’Allah et le salut soit sur lui : "dénombrez moi combien
l’islam est prononcé" Recueilli par Muslim.

Et jusqu’à la …n du 19 ème siècle, les statistiques sont restées, de façon essentielle, parmi les
techniques du calcul (démographie, calcul des nombres des soldats, les armes...etc).

Vers la …n du 19 ème siècle, et en 1960, les statistiques ont été développées, et ont suivi le
développement général des sciences, mais surtout des maths et de la physique.

Une étudiante m’a précédé, des département de mathématiques en 2018 l’étude statistique
descriptive des reposait sur un seul variable et j’ajouterai dans ma dans cette thèse les
statistique descriptive deux variables.

Basé dans cette thèse sur quatre chapitres principaux :

Chapiter1 : Généralités sur la statistique.

Qu’est-ce que la statistique ? Quelques dé…nitions.

Concept de base statistique et notation standard. Graphique. Exercices.

Chapiter2 : Statistique descriptive univariée.

Les caractéristiques de tendance centrale (mode, moyenne, médiane, quantiles, etc.),les ca-
ractéristiques de dispersion (variance, écart-type, coe¢ cient de variation, etc.), mesures de
forme (l’asymétrie, l’aplatissement), Le test du Chi-deux. Diagrammes. Exercices.

Chapiter3 : Statistique descriptive bivariée.

Les caractéristiques de tendance centrale et dispersion (moyenne marginale, variance margi-

2
Introduction

nale, etc), deux variables qualitatives (le test du khi-deux, test d’indépendance, etc), deux
variables quantitatives (co¢ cient de corrélation, droite de régression, etc). Exercices.

Chapiter4 : Logiciel R. Exercices.

3
Chapitre 1

Généralités sur la statistique

La statistique est une méthode d’analyse des ensembles comportant un grand nombre d’élé-
ments. C’est une science qui permet de traiter et d’analyser les résultats des mesures e¤ectuées
sur les individus d’une population relativement un certain nombre de caractères. Les résultats
des mesures sont, en général, appelés observations.[Meghlaoui (2011)]

Les statistiques jouent un rôle de plus important dans tous les aspects de l’activité humaine,
il sert d’autres sciences et les aide à développer et à étendre des recherches scienti…ques
précises et solides, comme il est courmment utilisé dans, agriculture, administration des
a¤aires, physique et chimie....[Hachmi]

1.1 Dé…nitions fondamentales

Dé…nition 1.1.1 La statistique : Est une branche des mathématiques appliquées qui a
pour objet l’étude des phénoménes mettant en jeu un grand nombre d’éléments, les statis-
tiques consistent en diverses méthodes de classement des données tels que les tableaux, les
histogrammes et les graphiques ensuite[Chekroun (2018)], analysez-le et interprétez les résul-
tats.

Dé…nition 1.1.2 La statistique descriptive[Goldfarb, Catherine (2011)] : Est un en-


semble de méthodes permettant de décrire, présenter, résumer des données souvent trés nom-

4
Chapitre 1.Généralités sur la statistique

breuses. Ces méthodes peuvent être numériques (tris, élaboration de tableaux, calcul de moyenne,
...) ou mener à des représentations graphique. Elle statistique descriptive se compose de deux
domaines distincts :

-La statistique descriptive univariée[Mémoire (2018)] : Correspond à l’analyse d’un


seul caractère, c’est l’étude de la population selon une seule variable.

-La statistique descriptive bivariée[Mémoire (2018)] : Est l’étude de la relation qui


peut exister entre deux variable, que l’on traite avec des méthode comme l’analyse.

Dé…nition 1.1.3 La statistique théorique ou mathématique[Lethielleux (2016)] :


Est de formuler des lois coprotement à partir d’obsarvation souvent incomplétes qui prend la
suite de la statistique descriptive lorsque l’on peut énoncer ou élaborer des loi : Loi khi deux,
loi normale, ...etc.[Fabrice (2006)]

1.2 Concept de base statistique

Population[Goldfarb, Catherine (2011)] : Une population est l’ensemble des éléments


aux quels se rapportent les données étudiées. Cet ensemble est noté .[Chekroun (2018)] En
statistique, le terme ‹population › s’applique à des ensembles de toute nature : étudiants
d’une académie, production d’une usine, poissons d’une riviére, entreprises d’un secteure
donné...

Unité statistique[Fabrice (2006)] : Les unités d’une population, que le critére soit qualita-
tif ou quantitatif. Peuvent étre présentées individuellement (c’est généralement le cas lorsque
les données sont saisies) ou regroupées. On appelle individu tout élément de la population
; il est noté ! (! dans )[Chekroun (2018)]:

Caractère (Variable statistique)[Chekroun (2018)] : On appelle caractère (ou variable


statistique, dé notée V.S) toute application X : ! C:

Modalités[Chekroun (2018)] : Les modalités d’une variable statistique sont les di¤érentes
valeurs que peut prendre celle-ci une variable.

5
Chapitre 1.Généralités sur la statistique

Echantillon[Hammed (2012)] : Est un sous ensemble de la population statistique, il n’est


généralement pas possible de collecter des données sur tous les éléments d’une population alors
on se contente d’extraire une partie de la population appelée échantillon et restreindre l’étude
à cet é[Link] nombre d’éléments dans l’échantillon s’appelle taille de l’échantillon et
sera noté par N .[Mémoire (2018)]

Série statistique :[Dagnelie (2006)] Est une ensemble de valeure obtenues à l’observation
d’un phénoméne La forme la plus élémentaire de présentation des données statistiques re-
latives à une seul variable consiste en une simple énumération des observations par ordre
croissant :

x1 x2 ::: xi ::: xk

Tableau statistique :[Dagnelie (2006)]Est une méthode permettent de présenter les données
sous la forme numérique. Il peut être aussi bien utilisé pour représenter des données brutes
que des résultats statistiques.

1.3 Type du caractère

1.3.1 Les caractères qualitatives

Une variable est dite qualitative si ses di¤érentes modalités ne sont pas numérique [Goldfarb, Catherine (2
Ainsi : La situation matrimoniale, le nationalité, la profession,..., sont des variables les élé-
ments de C [Chekroun (2018)] sont représentés par autre chose que des chi¤res. Le a deux
catégories :

Une variable qualitative ordinale

Elle dite ordinale quand les modalités peuventêtre naturellement ordonnées [Mémoire (2018)],
par exemple : grade, classe sociale,..., etc.

6
Chapitre 1.Généralités sur la statistique

Une variable qualitative nominale

Elle est dite nominale lorsque ses modalitésne peuvent être classées de façon naturelle [Mémoire (2018)]
par exemple : la variable couleur des yeux,..., etc.

1.3.2 Les caractères quantitatives

Une variable est dite quantitative lorsqu’elle est intrinséquement numérique, une variable
quantitative peut être une variable statistique discréte ou continue [Goldfarb, Catherine (2011)].

Les variables statistiques discrètes

Une variable statistique est dite discrète lorsqu’elle ne peut prendre que des valeure isolées
dans son intervalle de variation( représenté par nombres naturels N) comme "nombre de
maisons vendues par ville" [Goldfarb, Catherine (2011)].

Les variables statistiques continues

Une variable statistique est dite continue lorsqu’elle peut prendre toutes les valeure à l’in-
térieur de son intervalle de variation( représenté par nombres décimaux Q) comme" revenu
brut" [Goldfarb, Catherine (2011)].

1.4 E¤ectif partiel -E¤ectif total

On suppose un caractère statistique numérique admet chaque modalité xi avec i varie de 1 à


K.

! fx1 ; x2 ; :::; xn g
X:
Card ( ) := N

7
Chapitre 1.Généralités sur la statistique

1.4.1 E¤ectif partiel

Dé…nition 1.4.1 [Chekroun (2018)] Pour chaque valeure xi , on pose par dé…[Link] a :

ni = Card f! 2 : X (!) = xi g (1.1)

ni : S’appelle e¤ectif partiel de xi .

1.4.2 E¤ectif total

Dé…nition 1.4.2 [Fabrice (2006)] L’é¤ectif total N d’une valeure est la somme de l’e¤ectif
de cette valeure et de tous les e¤ectifs des valeure qui précédent. Pour chaque valeure xi , on
pose par dé…nition : [Chekroun (2018)]

X
k
N = n1 + n2 + ::: + nk ; N = ni = card( ): (1.2)
i=1

1.5 Fréquence partielle (fréquence relative)

Dé…nition 1.5.1 [Chekroun (2018)] La fréquence relative est égale à la e¤ectifs divisée par
l’é¤ectif total. Pour chaque valeur xi , on pose par dé…nition :

ni
fi = (1.3)
N

Remarque 1.5.1 [Chekroun (2018)]On peut remplacer fi par fi 100 qui représente alors
un pourcentage où fi = est le pourcentage des ! tel que X (!) = xi .

-La valeur de la fréquence relative est toujour entre 0 et [Link] peut multiplier la fréquence
par 100, ainsi on obtient une fréquence exprimée en %, entre 0% et 100%.

ni
Pk
Propriété 1.5.1 [Chekroun (2018)] Soit fi dé…ni comme fi = N
, alors i=1 fi = 1, ou
Pk
i=1 fi (%) = 100, le cas des fréquences en pourcentage.

8
Chapitre 1.Généralités sur la statistique

Pk
Preuve. [Chekroun (2018)] Rappelons que i=1 ni = N . Ce qui implique que

X
k X
k
ni 1 X
k
fi = = ni = 1:
i=1 i=1
N N i=1

Méme pour cas pourcentage.

1.6 Cumulée croissante

Quand les valeurs du caractère sont rangées dans l’ordre croissant [Chekroun (2018)], la
fréquence cumulée croissante F CC (ou e¤ectif cumulé croissant ECC) d’une valeure est la
somme des fréquences (ou e¤ectif) de cette valeur et de celles qui la précédent.

1.7 Cumulée décroissante

Quand les valeurs du caractère sont rangées dans l’ordre croissant [Chekroun (2018)], la
fréquence cumulée décroissante F CD (ou e¤ectif cumulé décroissante ECD) d’une valeur est
la somme des fréquence (ou e¤ectif) de cette valeur et de celles qui la suivent.

1.8 Représentation graphique des séries statistiques

1.8.1 Représentation graphique des caractères qualitatives

Les modalités d’un caractère qualitatif n’étant pas des ordonnées, on les représente généra-
lement par des graphiques qui utilisent des surfaces il existe deux types de représentations
fréquemment utilisées : représentation en cercle et rectangle [Leboucher, Marie (2013)].

Représentation par secteur

Dans cette représentation les aires et par conséquent les angles au centre sont proportionnels
aux e¤ectifs (ou aux fréquences) des di¤érentes modalités [Leboucher, Marie (2013)]. En e¤et

9
Chapitre 1.Généralités sur la statistique

0
Modalités du caractère X E¤ectifs ni ECC Ni ECD Ni
0
x1 n1 N1 = n 1 N1 = nk + ::: + n1
0
x2 n2 N2 = n 1 + n 2 N2 = nk + ::: + n2
::: ::: ::: :::
0
xi ni Ni = n1 + ::: + ni Ni = nk + ::: + ni
::: ::: ::: :::
0
xk nk Nk = n1 + ::: + nk Nk = n k
Total N

Tab. 1.1 –Table statistique d’un caractère qualitatifs


0
Fréquence fi FCC Fi FCD Fi
0
f1 F1 = f1 F1 = fk + ::: + f1 = 1
0
f2 F2 = f1 + f2 F2 = fk + ::: + f2
::: ::: :::
0
fi Fi = f1 + ::: + fi Fi = fk + ::: + fi
::: ::: :::
0
fk FK = f1 + ::: + fi + ::: + fk = 1 Fk = fk
1

Tab. 1.2 –Table statistique d’un caractère qualitatifs

ni
i = 360 = 360 fi (1.4)
N

Représentation par rectangle

Cette représentation fait …gurer les di¤érentes modalités du caractère sous forme de rectangle
dont la base est constante et dont la hauteur est proportionnelle à l’e¤ectif (ou à la fréquence)
[Leboucher, Marie (2013)].

Exemple 1.8.1 [Lethielleux, Chevalier (2017)]On s’intrésse à une série statistique du va-
riable "état civil" sur 22 personnes. On obtient le tableau suivant :

10
Chapitre 1.Généralités sur la statistique

état civil X E¤ectif personnes ni Fréquence fi


C : célibataire 10 0:454
M : marié(e) 4 0:182
V : veuf(ve) 6 0:273
D : divorcée 2 0:091
Total 22 1

Tab. 1.3 –Table de stasti pour l’état civil

Fig. 1.1 –Diagramme en secteurs et barres des e¤ectifs d’une variable qualitative

1.8.2 Représentation graphique des caractères quantitatives

Caractère discrète[Meghlaoui (2011)]

Dans le cas des séries statistiques discrètes il existe deux types de représentations graphiques.

Tableau statistique d’un caractère quantitatif discrète

La représentation en diagramme en bâtons :[Meghlaoui (2011)] La représentation


en diagramme en bâtons est la représentation de la distribution des fréquences ou des ef-
fectifs d’une caractère discrète. A chaque valeur xi portée en abscisse on fait correspondre
un segment vertical de longueur proportionnelle à l’e¤ectif ni ou à la fréquence fi de cette
valeur.

11
Chapitre 1.Généralités sur la statistique

Modalités du caractère X E¤ectif ECC ECD Fréquencefi F CC F CD


0 0
x1 n1 N1 N1 f1 F1 F1
x2 ::: ::: ::: ::: ::: :::
::: ::: ::: ::: ::: ::: :::
xi ::: ::: ::: ::: ::: :::
::: ::: ::: ::: ::: ::: :::
0 0
xk nk Nk Nk fk Fk Fk
Total N 1

Tab. 1.4 –Table statistique d’un caractère quantitatif discrète

La représentation en diagramme en cumulatifs La courbe cumulative est la représon-


tation graphique des e¤ectifs cumulés ou des fréquences cumulées [Meghlaoui (2011)]. C’est
un graphique en escalier dont les paliers horizontaux ont pour ordonnées respectivement Fi
ou Ni :

Exemple 1.8.2 [Lethielleux, Chevalier (2017)]Le tableau suivant donne la distribution de


90 familes selon le nombre d’enfants.

Nombre d’enfants Nombre familes ni Fréquences fi F CC


0 15 0:167 0:167
1 20 0:222 0:389
2 20 0:222 0:611
3 15 0:167 0:778
4 8 0:089 0:867
5 5 0:055 0:922
6 3 0:033 0:955
7 2 0:022 0:977
8 2 0:022 '1
Total 90 0:999 ' 1

Tab. 1.5 –Table la distribution de 90 familes selon le nombre d’enfants.

Tracer le diagramme en bâtons de cette e¤ectif.

Déterminer la fonction de répartition de cette distribution.

Tracer la courbe des fréquence cumulées croissantes. La fonction F pour une variable discrète
est constante par moroeaux, c’est une fonction en escalier.

Si :

12
Chapitre 1.Généralités sur la statistique

0 x < 1F (x) = 0:167

1 x < 2F (x) = 0:389

2 x < 3F (x) = 0:611

3 x < 4F (x) = 0:778

4 x < 5F (x) = 0:867

5 x < 6F (x) = 0:922

6 x < 7F (x) = 0:955

7 x < 8F (x) = 0:977

x 8F (x) = 1:

Trace le diagramme en bâtons et la courbe des F CC:

Fig. 1.2 – Diagramme en bâtonnets des e¤ectifs et fonction de répartition d’une variable
quantitative discrète

13
Chapitre 1.Généralités sur la statistique

Caractère continue[Meghlaoui (2011)]

Comme pour les caractère discrètes il existe pour les variable statistiques contines deux types
de représentation graphique.

Tableau statistique d’un caractère quantitative continue

Les classes CentresCi L’amplitudeai E¤ectif ECC ECD Fréquencefi F CC F CD


0 0
]b1 ; b2 [ C1 a1 n1 N1 N1 f1 F1 F1
]b2 ; b3 [ C2 a2 ::: ::: ::: ::: ::: :::
::: ::: ::: ::: ::: ::: ::: ::: :::
]bi ; bi+1 [ Ci ai ::: ::: ::: ::: ::: :::
::: ::: ::: ::: ::: ::: ::: ::: :::
0 0
]bk ; bk+1 [ Ck ak nk Nk Nk fk Fk Fk
Total N 1

Tab. 1.6 –Table statistique d’un caractère quantitative continue

La représentation en histogramme La courbe des fréquence [Meghlaoui (2011)] est la


fonction en escalier dont les paliers sont constitués par les bases supérieures des rectangles
formant l’histogramme des fréquence.

Courbe cumulative :[Meghlaoui (2011)] Comme pour les variables discrètes, la courbe
cumulative ou histogramme des fréquences cumulées, est la représentation graphique de la
fonction cumulative ou fonction de répartition F (x).

Exemple 1.8.3 [Lethielleux, Chevalier (2017)]On mesure la taille en centimetres de 54 élève


d’une classe :

La taille Nombre d’étudiants ni Fréquences fi F CC


[159; 163[ 8 0:148 0:148
[163; 167[ 18 0:333 0:481
[167; 171[ 11 0:204 0:685
[171; 175[ 7 0:130 0:815
[175; 179[ 10 0:185 1
Total 54 1

Tab. 1.7 –Table de stasti pour mesure la taille

14
Chapitre 1.Généralités sur la statistique

Tracer l’histogramme des fréquences et tracer la courbe des F CC

Fig. 1.3 –Histogramme des fréquences et fonction de répartition d’une variable quantitative
continue

15
Chapitre 2

Statistique descriptive univariée

Nous prenons un ensemble de données qui ont été fournies et prenons plusieurs mesures pour
analyser ces données. Nous devons connaître la raison de la collecte des données et quelles
échelles de mesure.

Il nous faut à présent traiter cet ensemble de données. Tout naturellment, cela commence par
les organiser, les regarder, les représenter graphiquement, regrouper celles qui se ressemblent,
élaborer les moyens de rassembler l’information sous une forme aisée à manipuler et à com-
muniquer ... bref, faire appel aux outils et méthodes de la statistique univariée l’étude d’une
seule variable, que celle-ci soit quantitative ou qualitative. La statistique univariée fait partie
de la statistique descriptive. [Université (2010)].

2.1 Mesures descriptives dans les statistiques

Il existe trois mesures descriptives [Monino et al (2010)] :

–Mesures de tendance centrale

–Mesures de dispresion

–Mesures de forme

16
Chapitre [Link] descriptive univariée

2.1.1 Les caractéristiques de tendance centrale

Les caractéristiques de tendance centrale [Bahouayila (2016)] ou «mesures de tendance cen-


trale» : Les données ont généralement tendance à être centrées autour d’une valeur spéci…que
qui peut êtr appelée la valeur centrale. Dans ce cas, les échelles sont utilisées pour reconnaître
cette valeur centrale de la représentation des données. Parmi les mesures les plus importantes
de la tendance centrale :

Le mode

Dé…nition 2.1.1 [Hamdani (1988)]On dé…nit le mode comme étant la valeur de la variable
statistique à laquelle correspond le plus grand e¤ectif (ou fréquence) de la distribution statis-
tique. On l’appelle encore valeur dominante est la valeur la plus représentée d’une variable
quelconque dans une population donnée est noté Mo :

a) Cas d’une caractère statistique quantitative discrète La valeur modale est exacte
lorsque la variable statistique est discrète [Hamdani (1988)].

Exemple 2.1.1 [Fabrice (2006)] Calcul du mode.

Série statistique simple

Soit la série de chi¤res f8; 5; 9; 13; 25g

Il n’y a pas de mode car chaque valeur n’est répétée qu’une fois.

Série statistique à valeurs répétitives

Soit la série de chi¤res f8; 8; 8; 7; 4; 4; 4; 4; 4; 5; 5; 5; 6g :

La valeur la plus fréquente est le 4.

17
Chapitre [Link] descriptive univariée

Fig. 2.1 –Mode d’une caractère statistique quantitative discrète

b) Cas d’une caractère statistique quantitative continue :[Hamdani (1988)] On


parle dans ce cas d’ne classe modale, elle correspond au maximun de la fréquence moyenne
par unité d’amplitude1 .

Exemple 2.1.2 [Fabrice (2006)] :Le tableau suivant représente la distribution despoints de
mathématiques pour 30 éléves.

E¤ectifs groupés par classes d’amplitudes égales

Note (xi ) d’amplitude ai Nombre d’éléves (ni ) E¤ective croissant N (xi )


[0 5[ 5 2 2
[5 10[ 5 7 9
[10 15[ 5 18 27
[15 20[ 5 3 30

Tab. 2.1 –Table Notes d’examen de mathématiques par classes d’amplitudes égales

Dans ce cas, pour calculer le mode , il faut appliquer la formule suivante :

(ni ni 1 )
Mo = bi 1 + (bi bi 1 ) (2.1)
(ni ni 1 ) + (ni ni+1 )
1
Amplitude de classe : ai = (bi bi 1 )
bi 1 : Borné inférieure de la classe modale.

18
Chapitre [Link] descriptive univariée

Alors :

(18 7)
Mo = 10 + 5 = 12:115
(18 7) + (18 3)

E¤ectifs groupés par classes d’amplitudes inégales

Note (xi ) Nombre d’éléves ni d’amplitude ai hi = naii


[0 10[ 9 10 0.9
[10 12[ 17 2 8.5
[12 20[ 4 8 0.5

Tab. 2.2 –Table Notes d’examen de mathématiques par classes d’amplitudes inégales

Dans ce cas, pour calculer le mode, il faut appliquer la formule(1:5); mais la dé…nition de
(ni ni 1 ) et de (ni ni+1 ) change, car il faut remplacer les e¤ectifs ni , par les amplitudes
ni
corrigées hi = ai
: Donc

(8:5 0:9)
Mo = 10 + (12 10) = 10:974
(8:5 0:9) + (8:5 0:5)

Remarque 2.1.1 [Hammed (2012)] Une distribution peut avoir un seul mode et on dit
qu’elle est unimodale, ou plusieurs modes et on dit qu’elle est multimodale.

La médiane

Dé…nition 2.1.2 [Hamdani (1988)] La médiane est dé…nie comme la valeur de la variable
statistique qui divise l’e¤ectif total en deux e¤ectifs égaux, est noté M e:

a) Cas d’une caractère statistique quantitatif discrète :

Exemple 2.1.3 [Fabrice (2006)] Calcul la médiane.

Série statistique simple

1-Soit la série impair de chi¤res suivants :f8; 4; 5; 13; 11; 25; 9g :

–Classer la série impair par ordre croissante de valeurs f4; 5; 8; 9; 11; 13; 25g

19
Chapitre [Link] descriptive univariée

–Localiser la valeur qui partage l’e¤ectif tatal en deux sous e¤ectifs égaux en appliquant la
formule

M e = x( N +1 ) (2.2)
2

C’est-à-dire ici M e = 9:

Fig. 2.2 –Médiane quand N est impair

2-Soit la série pair de chi¤res des valeurs f1; 2; 3; 4; 6; 8; 12; 15; 25; 30; 36; 41g
N +1 (12+1)
Appliquer la formule 2
;c’est-à-dire ici 2
= [Link]i nous indique que l’intervalle médian
est constitué par les 6eme et la 7eme valeurs. La médiane est donc

1 n o
Me = x( N ) + x( N +1) (2.3)
2 2 2

(8 + 12)
Me = = 10
2

Série statistique à valeurs répétitives

Pour déterminer la médiane, on repère 0:5 dans la colonne des fréquences cumulées F (x) ou
N
bien 2
dans la colonne des e¤ectifs cumulés N (x). Donc la médiane égale 11:

20
Chapitre [Link] descriptive univariée

xi ni fi F (x) N (x)
2 2 0:066 0:066 2
8 3 0:1 0:166 5
9 4 0:133 0:3 9
10 4 0:133 0:433 13
11 5 0:167 0:6 18
12 3 0:1 0:7 21
13 6 0:2 0:9 27
15 1 0:033 0:933 28
18 2 0:067 1 30

Tab. 2.3 –Table Calcul de la médiane quand les données sont groupées par valeurs.

xi ni N (xi )
[0 5[ 2 2
[5 10[ 7 9
[10 15[ 18 27
[15 20[ 3 30

Tab. 2.4 –Table Calcul de la médiane par classes

b) Cas d’une caractère statistique quantitative continue Dans ce cas , le calcul de


la médiane nécessite d’appliquer la formule suivante :

" #
N
2
N (xi 1 )
M e = b i + ai (2.4)
ni

Exemple 2.1.4 [Fabrice (2006)] Calcul de la médiane

La médiane
15 9
M e = 10 + 5 18
= 11:67

Remarque 2.1.2 [Hammed (2012)] Le calcul de la médiane est basé sur l’ordre des observa-
tions et non sur leur valeur. la médiane est insensible aux données extrêmes. Dans le cas où
les données sont très di¤érentes, la médiane est une meilleure mesure de tendance centrale.
2
bi 1 = borne inférieure de la classe médiane.
N (xi 1 ) = E¤ectif cumulé strictement inférieur à xi :
xi = Classe médiane .
ai = Amplitude de la classe médiane.

21
Chapitre [Link] descriptive univariée

La moyenne arithmétique

Dé…nition 2.1.3 [Hamdani (1988)] Une moyenne arithmétique d’une variable statistique X
se dé…nit comme étant le rapport de la somme des valeurs prises par cette variable,divisée
par le nombre d’observations [Grais (1991)].

La moyenne arithmétique simple Est dit simple lorsque chaque modalité xi n’appa-
rissent qu’une seul fois

1 X
k
X= xi (2.5)
N i=1

La moyenne arithmétique pondérée Soit une variable statistique pouvant prendre les
x1 ; :::; xk aux quelles correspondent respectivement les e¤ectifs n1 ; :::::; nk :

1 X
k
X= ni xi (2.6)
N i=1

ni
On associe à chaque ni la fréquence fi = N
. Donc la moyenne arithmétique égale

X
k
X= fi xi (2.7)
i=1

Cas d’une caractère statistique quantitatif discréte

Exemple 2.1.5 [Grais (1991)] Calculons le nombre moyenne de ventes par jour d’ouverture
d’un magasin suivant le nombre d’un appareil A.

Pour calculer la moyenne arithmétique, il est toujours possible d’utiliser la formule

1 X
k
X= ni xi (2.8)
N i=1

692
X= = 2:883
240

22
Chapitre [Link] descriptive univariée

Jours xi Nomber de ventes ni ni xi


1 53 53
2 65 130
3 50 150
4 43 172
5 7 35
6 2 12
7 20 140
Total 240 692

Tab. 2.5 –Table Le nombre de ventes par jour d’ouverture d’un appareil A.

Cas d’une caractère quantitatif statistique continue :

Exemple 2.1.6 [Grais (1991)] Considérons la distribution des ouvriers selon le salaire men-
suel net.

Les saclaire xi Centre de classe Ci Nomber de travailleurs ni


800 à moins de 1000 900 20
1000 à moins de 1200 1100 30
1200 à moins de 1400 1300 20
1400 à moins de 1600 1500 7
1600 à moins de 1800 1700 70
Total 147

Tab. 2.6 –Table distribution des ouvriers selon le salaire mensuel net

Calculons la moyenne en utilisant la formule

1 X
k
X= ni ci (2.9)
N i=1

1
X= (206500) = 1404:76
147

Propriété 2.1.1 [Grais (1991)] La somme algébrique des écarts des observations à la moyenne
est nule.
3 bi +bi 1
Centres des classes : Ci = 2

23
Chapitre [Link] descriptive univariée

X
k
ni (xi X) = 0 (2.10)
i=1

Preuve. [Grais (1991)]

X
k
ni (xi X) = n1 x1 + ::: + nk xk X(n1 + ::: + nk );
i=1

c’est-à-dire :
X
k X
k X
k
ni (xi X) = ni xi X ni
i=1 i=1 i=1

Or :

X
k
ni = N
i=1

et
X
k
ni xi = N X;
i=1

par dé…nition de la moyenne :


1 X
k
X= ni xi
N i=1

d’où :
X
k
ni (xi X) = N X NX = 0
i=1

Généralisation de la notion de moyenne

La moyenne géométrique G :[Monino et al (2010)]De la distribution (xi ; ni ) est obtenue


4
à partir de la moyenne arithmétique de la distribution (yi ; ni ); en posant yi = log xi avec
xi positif.

1 X X
k k
n1 log x1 + ::: + ni log xi + ::: + nk log xk
log G = = ni log xi = fi log xi
n1 + ::: + ni + ::: + nk N i=1 i=1

4
log : Logarithme népérien.

24
Chapitre [Link] descriptive univariée

qui s’écrit également :

q Y
k
ni
G= N
xn1 1 xni i xnk k = xfi i oufi = (2.11)
i=1
N

Propriété 2.1.2 [Grais (1991)]

1) Formons les produits : zi = xi yi ! G(zi ) = G(xi ) G(yi ):


xi G(xi )
2) Formons les rapports : qi = yi
! G(qi ) = G(yi )
:

Preuve. [Grais (1991)]


p p p
1) G(zi ) = n z1 :z2 :::zn = n x1 x2 :::xn n y1 y2 :::yn = G(xi )G(yi ):
p p
n x x :::x
1 2 n G(xi )
2) G(qi ) = n q1 q2 :::qn = p
n y1 y2 :::yn = G(yi )
:

La moyenne harmonique H :[Monino et al (2010)]De la distribution (xi ; ni ) est obtenue


1
à partir de la moyenne arithmétique de la distribution (yi ; ni ), on posant yi = xi
avec xi non
nul.

1 X ni X 1
k k
1
= = fi
H N i=1 xi i=1
xi

qui s’écrit également :

N
H = Pk ni
(2.12)
i=1 xi

La moyenne quadratique Q :[Monino et al (2010)]De la distribution (xi ; ni ) est obtenue


à partir de la moyenne arithmétique de la distribution (yi ; ni ); en posant yi = x2i :
P P
Q2 = N1 ki=1 ni x2i = ki=1 fi x2i

qui s’écrit également :

v v
u u k
u1 X k uX
Q=t ni x2i = t fi x2i (2.13)
N i=1 i=1

Propriété 2.1.3 [Grais (1991)]Il existe une relation d’ordre entre les moyennes :

25
Chapitre [Link] descriptive univariée

1)

xmin < H < G < X < Q < xmax

2) Si x1 = x2 = ::: = xi = ::: = xk = a; alors H = G = X = Q = a:

Preuve. Véri…ons cette propriété :

Exemple 2.1.7 Calculons la moyenne géométrique,La moyenne harmonique et La moyenne


quadratique des nombres : 2; 3; 5; 7; 13:

p
5
p
5
G= 2 3 7 13 5 = 2730 = 4:867

5
H= 1 = 3:990
2
+ + + 17 +
1
3
1
5
1
13

r
1
Q= (2 2 + 3 3 + 5 5 + 7 7 + 13 13) = 7:155
5

1
X = (2 + 3 + 5 + 7 + 13) = 6:000
5

xmin = 2; xmax = 13

Alors 2:000 < 3:990 < 4:867 < 6:000 < 7:155 < 13:000
5
min : Munimun d’une fonction f (:):
max : Maximun d’une fonction f (:):

26
Chapitre [Link] descriptive univariée

2.1.2 Les caractéristiques de dispersion

Les caractéristique de la dispersion sont nombreuses [Fabrice (2006)], nous étudierons ici les
plus fréquemment utilisées : La variance, l’écart type, le coe¢ cient de varition, ....

Nous verrons également deux outils graphiques utiles pour l’analyse de la dispersion d’une
distribution : Le graphique “boîte à moustaches”, ainsi que la courbe de concentration.

L’étendue

Dé…nition 2.1.4 [Meghlaoui (2011)] L’étendue d’une distribution statistique, notée E, est
la di¤érence entre la plus grande et la plus petite des valeurs observées, ie.

E = xmax xmin (2.14)

Remarque 2.1.3 [Meghlaoui (2011)] La forme de la distribution entre les extrèrnes n’est
pas prise en compte. Donc, l’étendue est une caratéristique de dispersion imparfaite.

Les quantiles

Les quantiles sont généralisation de la notion de la médiane, qui représente un cas particulier.

Dé…nition 2.1.5 [Meghlaoui (2011)] Le quantile d’ordre (0 1), noté Q est la


solution de l’équation F (x) = : Ainsi, en désignant par F 1
la fonction inverse6 de la
fonction F on a alors :
1
Q =F ( ) (2.15)

Il existe quatre type de quantiles :[Hamdani (1988)]


1 3
On utilise souvent les quantiles d’ordre 4
ou 25% et d’ordre 4
ou 75%, ces quantiles sont
1
appellés quartiles et notés Q1 et Q3 , la médiane est quartile d’ordre 2
ou 50% notée Q2 :

[Link] quartiles (Q1 ; :::; Q4 ) divisent la population statistique en 4 e¤ectifs égaux.


6
Fonction inverse : On appelle fonction inverse la fonction dé…nie pour tout réel non nul par f (x) = x1 :

27
Chapitre [Link] descriptive univariée

[Link] déciles (D1 ; :::; D9 ) on divise la population total en 10 e¤ectifs égaux.

[Link] centiles (C1 ; :::; C99 ) on divise la population total en 100 e¤ectifs égaux.

[Link] milliles (M1 ; :::; M999 ) on divise la population statistique en 1000 e¤ectifs égaux.

Les intervalles interquantiles

Dé…nition 2.1.6 [Hamdani (1988)] On appelle intervalle interquantile, la di¤éreence entre


le dernier et du premier quantile calculé.

– Intervalle interquartile : IQ = (Q3 Q1 ) = x 3 x 1 où Q1 et Q3 désigne le premier et


4 4

le troisiéme quartile. Cet indice fournit un renseignement sur l’étalement des valeurs de part
et d’autre de la médiane. Contenant 50% d’observations.

–Intervalle interdécile : ID = (D9 D1 ) = x 9 x 1 où D1 et D9 désigne le premier et le


10 10

neuvième décile. Cet indice fournit un renseignement sur l’étalement des valeurs de part et
d’autre de la médiane. Contenant 80% d’observations.

–Intervalle intercentile : IC = (C99 C1 ) = x 99 x 1 : Contenant 98% d’observations.


100 100

–Intervalle intermillile : IM = (M999 M1 ) = x 999 x 1 : Contenant 99:8% d’observa-


1000 1000

tions.

Diagramme en boîte (ou boîte à moustaches)

Il s’agit d’un diagramme permettant de positionner les quartiles Q1 ; Q2 ; Q3 ; au moyen de rec-


tangles de largeur arbitraire, prolongés par des “moustaches”de part et d’autre, de longueur
au plus égale à une fois et demie Q3 Q1 .

Remarque 2.1.4 [Meghlaoui (2011)] Ces diagrammes sont surtout utiles pour comparer ra-
pidement l’allure générale de plusieurs distributions.

28
Chapitre [Link] descriptive univariée

La variance

Dé…nition 2.1.7 [Fabrice (2006)] Soit une série de valeurs d’une variable X : (x1 ; x2 ; :::; xk ):
Soit les e¤ectifs associés : fn1 ; n2 ; ::; nk g : La variance de cette série s’écrit :

Si l’e¤ectif considéré est celui d’une population

1 X
k
2
X = ni (xi X)2 (2.16)
N i=1

Si l’e¤ectif considéré est celui d’une échantillon

1 X
k
2
X = ni (xi X)2 (2.17)
N 1 i=1

Remarque 2.1.5 [Hamdani (1988)]

[Link] est toujours positive ou nulle

2
V (xi ) = (xi ) 0 (2.18)

[Link] Variance d’une constante est nulle.[Goldfarb, Catherine (2011)]

Propriété 2.1.4 [Chekroun (2018)] (Théorème de König-Huygens)

Soit (xi ; ni ) une série statistique de moyenne X et de variance V (x). Alors,

X
K
2
V (X) = fi x2i X (2.19)
i=1

Preuve. [Chekroun (2018)] Par dé…nition (2:16), nous avons

29
Chapitre [Link] descriptive univariée

1 X
k
2
X = V (X) = ni (xi X)2
N i=1
Pk
ni (xi X)2
= i=1
N
Pk 2 2
i=1 ni (xi + X 2xi X)
=
N
1 X 1 X 1 X
k k k
2 2
= ni xi + ni X 2ni xi X
N i=1 N i=1 N i=1

X
k
ni 2 1 X
k
= x2i +X 2X xi
i=1
N N i=1

X
k
2
= fi x2i X
i=1

Propriété 2.1.5 [Leboucher, Marie (2013)] Transformation linéaire :7

V (aX + b) = a2 V (X) (2.20)

Preuve. [Leboucher, Marie (2013)] Soit Y = aX + b où a; b sont des nombres réels quelques.
!
On a Y = aX + b et yi = axi + b pour tout i = 1; k
7
f application de E dans K; f linaire si :
8(x; y) 2 E 2 ; 8 2 k;
f ( x + y) = f (x) + f (y)

30
Chapitre [Link] descriptive univariée

1 X
k
V (Y ) = ni (yi Y )2
N i=1

1 X
k
= ni (axi + b aX b)2
N i=1

1 X
k
= ni a2 (xi X)2
N i=1

1 X
k
2
=a ni (xi X)2
N i=1

= a2 V (X):

L’écart-type

Dé…nition 2.1.8 [Goldfarb, Catherine (2011)]L’écart-type x d’une variable statistique X


est la mesure de dispersion la plus couramment utilisée. Algébriquement, il se dé…nit comme
la racine carrée de la variance.

p
X = V (X) (2.21)

Propriété 2.1.6 [Goldfarb, Catherine (2011)]

(aX + b) = jaj (X) (2.22)

Remarque 2.1.6 [Goldfarb, Catherine (2011)]Dans le cas d’une variable statistique conti-
nue, on ramène la valeur de chaque individu au milieu de sa classe d’a¤ectation. Là encore,
le choix des bornes des classes extrêmes non limitées doit être fait avec précaution.

31
Chapitre [Link] descriptive univariée

Le co¢ cient de variation

Dé…nition 2.1.9 [Grais (1991)]Le coe¢ cient de variation est dé…ni comme le rapport de
l’écart-type à la moyenne :

X
CV = (2.23)
X

Exemple 2.1.8 Lors d’une contrôle de connaissances, on fait subir à étudiants un test noté
sur 60 points. La série des notes obtenues est la suivante :

30 45 45 20 40 25 34 50

20 25 30 34 40 45 45 50

Calculer statistiques suivants :

–L’étendue : E = xmax xmin = 30

–Les quartiles

xmin = 20; Q1 = x 1 = 28:75; mediane = Q2 = x 1 = 37, Q3 = x 3 = 45; xmax = 50


4 2 4

–Intervalle interquartile : IQ = (Q3 Q1 ) = x 3 x 1 = 45 28:75 = 16:25


4 4
P k
–La variance : X 2
= N1 i=1 ni (xi X)2 = 113
p
–L’écart-type : X = V (X) = 10:63

–Le co¢ cient de variation : CV = X


X
= 0:29

–Diagramme en boîte à moustaches

32
Chapitre [Link] descriptive univariée

Fig. 2.3 –Boîtes à moustaches

2.1.3 Mesures de forme :

Comme nous l’avons vu précédemment, la tendance centrale et à dispersion nous aide à


connaissance la di¤usion des données sur la valeur centrale. Nous examinerons les mesures
qui nous aident à connaître la centraliser et la forme de la distribution statistique sans recourir
à la représentation des données sont appelées mesures de forme ce qui dépend de son calcul
les moments.

Les di¤érents indicateurs d’asymétrie et d’aplatissement permettent en premier lieu la com-


paraison entre les distributions statistiques :

1. L’asymétrie d’une distribution peut être approchée par une comparaison entre le mode, la
médiane et la moyenne arithmétique.

2. L’aplatissement peut être approché par l’étude des observations aux alentours du mode :
plus le nombre d’individus ayant une valeur proche du mode de la distribution est élevé, plus
la courbe sera concentrée et plus l’aplatissement sera faible.[Monino et al (2010)]

33
Chapitre [Link] descriptive univariée

Les moments non centrés et les moments centrés d’ordre p: [Monino et al (2010)]

Les moments non centrés d’ordre p Soit la distribution statistique (xi ; ni ) où i 2


f1; :::; [Link] appelle moment non centré d’ordre p de la variable statistique X, la quantité
dé…nie par :

1 X X
k k
p
mp = ni xi = fi xpi (2.24)
N i=1 i=1

Les moment centrés d’ordre p Soit la distribution statistique (xi ; ni ) où i 2 f1; :::; [Link]
appelle moment centré (sur la moyenne arithmétique) d’ordre p de la variable statistique X,
la quantité dé…nie par :

1 X X
k k

p = ni (xi X)p = fi (xi X)p (2.25)


N i=1 i=1

L’asymétrie

Le coe¢ cient d’asymétrie de Pearson

2
3
AP = 3
(2.26)
2

Où m est le moment centré sur la moyenne arithmétique. Ce coe¢ cient s’écrit d’une façon
plus simple en utilisant les moments non centrés.

Si Ap est nul, alors la distribution est symétrique ) X = M e = Mo :

Si Ap est positif, alors il y a asymétrie) Mo < M e < X:

Le coe¢ cient d’asymétrie de Fisher C’est la racine carrée du coe¢ cient de Pearson :

s
p 2
3 3
AF = A P = 3
= 3
(2.27)
2 x

2
où X = V (X) = 2

34
Chapitre [Link] descriptive univariée

Si AF = 0; la distribution est symétrique) X = M e = Mo :

Si AF 0; la disribution est étalées vers la droite) Mo < M e < X:

Si AF < 0; la disribution est étalées vers la gouche) Mo Me X:

Fig. 2.4 –Asymétrie d’une distribution

L’aplatissement[Monino et al (2010)]

Le coe¢ cient d’aplatissement de Pearson

4 4
APP = 2
= 4
(2.28)
2 x

Le coe¢ cient d’aplatissement de Fisher

4
APF = APP = 2
3 (2.29)
2

Si APP = 3 (ou APF = 0); alors la courbe mésokurtique.

Si APP < 3 (ou APF < 0); alors la courbe platykurtique.

Si APP 3 (ou APF 0); alors la courbe leptokurtique.

35
Chapitre [Link] descriptive univariée

2.2 Le test du Chi-deux(X 2)

2.2.1 La loi du X 2

Dé…nition 2.2.1 [Grammont (2003)] Soient x1 ; :::; xk des variables aléatoires indépendantes
de même loi normal N (0; 1),8 On appelle loi du X 2 à k degrés de liberté, la loi de la variable
aléatoire :

X
k
Xk2 = x2i (2.30)
i=1

2.2.2 E¤ectif théorique

Dé…nition 2.2.2 [Grammont (2003)] On appelle E¤ ectif théorique le produit N pi 5.(


Ce n’est pas forcément un entier).

2.2.3 Le test du X 2 d’ajustement :

La méthode consiste à comparer l’histogramme des fréquences et la distribution de la loi de


probabilité servant de modèle théorique[Meraghni (2017)] d’employer le test lorsque certains
e¤ectifs théoriques sont inférieurs à 5. Pour cela, après avoir découpé l’intervalle d’observation
en k classes, on construit un indice d2 mesurant l’écart constaté entre les e¤ectifs réels et les
e¤ectifs théoriques[Alalouf et al (2002)]

X
k
(ni N pi )2
2
d = (2.31)
i=1
N pi

Exemple 2.2.1 [Meraghni (2017)] : On veut tester si un dé n’est pas truqué. Pour cela on
lance le dé 60 fois et on obtient les résultats suivants

8 2 2
X suit la loi normalde paramètres m et note N (m; ) si X ! N (0; 1) la loi normale centrée réduite.

36
Chapitre [Link] descriptive univariée

Face xi Nombre de fois ni e¤ectif théorique N pi


1 15 10 5
2 7 10 5
3 4 10 5
4 11 10 5
5 6 10 5
6 17 10 5

Tab. 2.7 –Table Calcul la distance de khi-deux

Pk (ni N pi )2 (15 10)2 (7 10)2 (4 10)2 (11 10)2 (6 10)2 (17 10)2
d2 = i=1 N pi
= 10
+ 10
+ 10
+ 10
+ 10
+ 10
= 13:6

37
Chapitre 3

Statistique descriptive bivarié

Le chapitre précédent traitait de la statistique descriptive univariée, c’est-à-dire de la


description d’une série statistique selon un seul caractère. On veut maintenant étudier, vi-
sualiser et mesurer (le cas échéant) les liens existant entre deux variables : C’est l’objet de la
statistique descriptive bivariée.

Dans cette chapitre, on s’intéresse à l’étude simultanée de deux variables X et Y , étudiées


sur le même population, toujours noté . L’objectif essentiel des méthodes présentées est de
mettre en évidence une éventuelle variation simultanée des deux variables, que nous appelle-
rons alors liaison. Dans certains cas, cette liaison peut être considérée a priori comme causale,
une variable X expliquant l’autre Y ; dans d’autres, ce n’est pas le cas, et les deux variables
jouent des rôles symétriques. Dans la pratique, il conviendra de bien di¤érencier les deux
situations et une liaison n’entraîne pas nécessairement une causalité. Sont ainsi introduites
les notions de covariance, coe¢ cient de corrélation linéaire,régression linéaire, Khi-deux et
autres indicateurs qui lui sont liés. De même, nous présentons les graphiques illustrant les
liaisons entre variables : nuage de points ,diagrammes-boîtes parallèles [Baccini (2010)].

38
Chapitre 3. Statistique descriptive bivarié

3.1 Série statistique double

Dé…nition 3.1.1 [Dagnelie (2006)] Les observation relatives à deux variables se présentent
le plus simplement sous la forme d’une série statistique double, c’est-à-dire de la suite des N
couples de valeurs observées (xi ; yj ), dans l’ordre croissant d’une des deux variables.

Notations

On notera xi ; i = 1; :::::::; k les k modalités ou valeurs de la variable X.

On notera yj ; j = 1; :::::::; m les m modalités ou valeurs de la variable Y .

Les deux variables X et Y sont mesurées simultanément sur chacun des N individus de la
population. On notera nij l’e¤ectif correspondant au couple (xi ; yj ).

3.2 E¤ectif dans le cas bivarié

3.2.1 E¤ectifs joints

nij :E¤ectif joint de la modalité xi et de la modalité yj

nij := cardf! 2 =X(!) = xi ; Y (!) = yi g (3.1)

3.2.2 E¤ectifs marginaux

L’e¤ectif marginal de la i éme modalité de la variable X, ni: ;s’obtient selon la formule


suivante :

X
m
ni: = nij (3.2)
j=1

L’e¤ectif marginal de la j éme modalité de la variable Y; n:j ; s’obtient selon la formule


suivante :

39
Chapitre 3. Statistique descriptive bivarié

X
k
n:j = nij (3.3)
i=1

Remarque 3.2.1 [Fabrice (2006)]

X
k X
m X
k X
m
N= nij = ni: = n:j = n:: (3.4)
i=1 j=1 i=1 j=1

3.2.3 Tableaux des e¤ectifs

X nY y1 y2 ::: yj ::: ym total


x1 n11 n12 ::: n1j ::: n1m n1:
x2 n21 n22 ::: n2j ::: n2m n2:
::: ::: ::: ::: ::: ::: ::: :::
xi ni1 ni2 ::: nij ::: nim ni:
::: ::: ::: ::: ::: ::: ::: :::
xk nk1 nk2 ::: nkj ::: nkm nk:
total n:1 n:2 ::: n:j ::: n:m N = n::

Tab. 3.1 –Table E¤ectif dans le cas bivarié

3.3 Fréquence dans le cas bivarié

3.3.1 fréquences jointes :

On peut, par un calcul semblable à celui réalisé dans le cas univarié, mesurer la fréquence
d’un couple, en rapportant sa fréquence sur la taile de la population.[Chekroun (2018)]

nij
fij = (3.5)
N

3.3.2 Fréquences marginales

La fréquence marginale d’une modalité de X ou Y se calcule, respectivement, avec les formules


suivantes, à partir de l’e¤ectif marginal :

40
Chapitre 3. Statistique descriptive bivarié

ni:
fi: = (3.6)
N

n:j
f:j = (3.7)
N

Remarque 3.3.1 [Chekroun (2018)]

X
k X
m X
k X
m
1= fij = fi: = f:j = f:: (3.8)
i=1 j=1 i=1 j=1

1)
ni:
fi: = i = 1; 2; :::; k (3.9)
N

2)
n:j
f:j = j = 1; 2; :::; m (3.10)
N

X
m X
m
nij ni:
fi: = fij = =
j=1 j=1
N N

X
k X
k
nij n:j
f:j = fij = =
i=1 i=1
N N

3.3.3 Tableaux des fréquences :

[Fabrice (2006)]

Exemple 3.3.1 [Fabrice (2006)]Soit le tableau de contingence suivant d’un groupe de N =


50 personnes réparties par groupe d’âge X et par sexe Y , tous âgés de 45 ans au plus.

En repenant la notation du Tableau de e¤ectif on a ici :

n11 = 15; n12 = 13; n21 = 7; n22 = 15


P
ni: = m j=1 nij

41
Chapitre 3. Statistique descriptive bivarié

X nY y1 y2 ::: yj ::: ym Total


x1 f11 f12 ::: f1j ::: f1m f1:
x2 f21 f22 ::: f2j ::: f2m f2:
::: ::: ::: ::: ::: ::: ::: :::
xi fi1 fi2 ::: fij ::: fim fi:
::: ::: ::: ::: ::: ::: ::: :::
xk fk1 fk2 ::: fkj ::: fkm fk:
Total f:1 f:2 ::: f:j ::: f:m f:: = 1

Tab. 3.2 –Table Fréquence dans le cas bivarié

X nY Homme femme
[0 18[ 15 13
[18 45[ 7 15

Tab. 3.3 –Table Représenter groupe de personnes réparties par groupe d’âge X et par sexe
Y

n1: = n11 + n12 = 15 + 13 = 28; n2: = n21 + n22 = 7 + 15 = 22


P
n:j = ki=1 nij

n:1 = n11 + n21 = 15 + 7 = 22; n:2 = n12 + n22 = 13 + 15 = 28


Pk Pm Pk Pm Pk Pm
i=1 j=1 n ij = i=1 n i: = j=1 n j: = n :: = i=1 j=1 nij = n11 + n12 + n21 + n22 =

15 + 13 + 7 + 15 = 50
P
n:: = ki=1 ni: = n1: + n2: = 28 + 22 = 50
P
n:: = m j=1 n:j = n:1 + n:2 = 22 + 28 = 50

Fréquences marginales de X :
n1: 28
f1: = n::
= 50
= 0:56
n2: 22
f2: = n::
= 50
= 0:44

Fréquences marginales de Y :
n:1 22
f:1 = n::
= 50
= 0:44
n:2 28
f:2 = n::
= 50
= 0:56

42
Chapitre 3. Statistique descriptive bivarié

3.4 Représentations graphiques des distributions deux

caractères

Le mode de représentation graphique d’une distribution deux caractères n’est strictement


possible que dans un espace trois dimensions. Chacun des caractères est porté sur une di-
mension et la troisième est a¤ectée aux e¤ectifs ou aux fréquences [Grais (1991)].

3.4.1 Cas des caractères quantitatives

Une série statistique double dont les caractères X et Y sont quantitative est représentée par
les points Mi de coordonnées (xi ; yi ) dans un repère orthogonal du plan. Cette représentation
s’appelle nuage de points de la série statistique double.

3.4.2 Cas des caractères qualitatives

Si les deux variable X et Y sont qualitatives, alors les données observées sont une suite
de couples de variable (x1 ; y1 ); :::; (xi ; yj ):::; (xN ; yN ), il n’est pas possible, dans ce cas, de
représenter les deux caractères de façon absolument symétrique.

3.5 La moyenne et la variance marginale

3.5.1 La moyenne marginale

La variable X :

1 X X
i=k i=k
X= ni: xi = fi: xi (3.11)
N i=1 i=1

La variable Y :

43
Chapitre 3. Statistique descriptive bivarié

1 X X
i=m i=m
Y = n:j yj = f:j yj (3.12)
N j=1 j=1

Remarque 3.5.1 [Goldfarb, Catherine (2011)]Moyenne d’une somme de deux variables sta-
tistiques X + Y = X + Y

3.5.2 La variance marginale

La variable X :

1 X X
i=k i=k
2 2
V (X) = X = ni: (xi X) = fi: (xi X)2 (3.13)
N i=1 i=1

La variable Y :

j=m j=m
2 1 X 2
X
V (Y ) = Y = n:j (yj Y) = f:j (yj Y )2 (3.14)
N j=1 j=1

Propriété 3.5.1 Dans le cas où les séries ou les variables aléatoires X et Y sont indépen-
dantes,1 on a :

V (X + Y ) = V (X) + V (Y )

3.6 Écart-type

On utilise les carrés des écarts et non les écarts eux-mêmes a…n d’éviter une correction
fallacieuse entre des écarts positifs et négatifs. L’usage de l’écart moyen arithmétique est très
rarement utilisé car peu opérationnel de par les valeurs absolues et son absence de propriétés
additives en présence de variables indépendantes.

L’écart-type ou l’écart quadratique moyen d’une série ou variable aléatoire X ou Y est la


racine carrée de la variance marginale X ou Y .[Mehl (1996)]
1
L’indépendance est une notion probabiliste quali…ant de manière intuitive des événements aléatoires
n’ayant aucune in‡uence l’un sur l’autre.

44
Chapitre 3. Statistique descriptive bivarié

La variable X :
p
X = V (X) (3.15)

La variable Y :

p
Y = V (Y ) (3.16)

Exemple 3.6.1 [Fabrice (2006)] Soit le tableau de contingence suivant

X=Y 1 4 ni:

2 5 7 12

8 2 12 14

n:j 7 19 26

Calculons la moyenne marginale de X :


P
X = n1:: ki=1 ni: xi = 26
1
((12 2) + (14 8)) = 68
13
= 5:2308

Calculons la moyenne marginale de Y :


P
Y = n1:: m 1
j=1 n:j yj = 26 ((7 1) + (19 4)) =
83
26
= 3:1923

Calculons le variance marginale de X :

xi ni: x2i ni: x2i

2 12 4 48

8 14 64 896

2 1
Pi=k 1
Pi=k 1
X = N i=1 ni: (xi X)2 = N i=1 ni: x2i (X)2 = 26
(48 + 896) (5:2308)2 = 8:9464
p
X = 8:9464 = 2:9911

Calculons le variance marginale de Y :

45
Chapitre 3. Statistique descriptive bivarié

yi n:j yj2 n:j yj2

1 7 1 7

4 19 16 304

2 1
Pj=m 1
Pj=m 1
Y = N j=1 n:j (yj Y )2 = N j=1 n:j yj2 (Y )2 = 26
(7 + 304) (3:1923)2 = 1:7708
p
Y = 1:7708 = 1:330 7

3.7 Covariance

Dé…nition 3.7.1 [Meghlaoui (2011)]Soit (X; Y ) un couple de variables statistiques pouvant


prendre les valeurs (xi ; yj ),i = 1; 2; :::; k et j = 1; 2; :::; m avec les e¤ectifs respectifs (nij ),
i = 1; [Link]; k et j = 1; 2; :::; m. On appelle covariance des variables statistiques X et Y notée
Cov(X; Y ), la quantité dé…nie telle que :

i=k j=m
1 XX
cov(X; Y ) = nij (xi X)(yj Y) (3.17)
N i=i j=1

Remarque 3.7.1 [Meghlaoui (2011)]Pour le calcul pratique, on utilisera souvent la formule


développée de la covariance dé…nie telle que

i=k j=m i=k j=m


1 XX X X
cov(X; Y ) = nij xi yj XY = fij xi yj XY (3.18)
N i=1 j=1 i=1 j=1

Dans certaines situations il arrive que que les observations d’une population suivant deux
caractères(X; Y ) soient appariées, i.e. les observations sont disponibles sous forme d’une suite
(xi ; yi ); i = 1; 2; :::; N , alors dans cette situation la covariance est dé…nie telle que :

1 X 1 X
i=N i=N
cov(X; Y ) = (xi X)(yi Y)= xi yi XY (3.19)
N i=i N i=1

Propriété 3.7.1 [Goldfarb, Catherine (2011)]

46
Chapitre 3. Statistique descriptive bivarié

cov(X; Y ) = cov(Y; X)

cov(X; X) = V (X)

V (X + Y ) = V (X) + V (Y ) + 2cov(X; Y )

Preuve. [Goldfarb, Catherine (2011)]


P Pj=m Pi=k Pj=m
cov(X; Y ) = N1 i=k
i=i j=1 nij (xi X)(yj Y) = 1
N i=i j=1 nij (yj Y )(xi X) =
cov(Y; X)
1
Pi=k 1
Pi=N
cov(X; X) = N i=i ni (xi X)(xi X) = N i=i ni (xi X)2 = V (X)
1
Pi=N 1
Pi=N 1
Pi=N
V (X + Y ) = N i=1 (xi + yi (X + Y ))2 = N i=1 (xi + yi X Y )2 = N i=1 (xi X+
yi Y )2
hP Pi=N Pi=N i
1 i=N
= N i=1 (xi X)2 + i=1 (yi Y )2 + 2 i=1 (x i X)(y i Y )
Pi=N Pi=N P
= 1
N i=1 (xi X)2 + 1
N i=1 (yi Y )2 + 2 N1 i=N
i=1 (xi X)(yi Y ) = V (X) + V (Y ) +
2cov(X; Y )

3.8 Deux variables qualitatives

On considère une population sur laquelle on étudie deux variables qualitatives observées
simultanément sur N individus [Vessereau (1965)].

On peut alors calculer les critères classiques du khi-deux X 2 de Pearson , ou encore le coef-
…cient de corrélation.

3.8.1 Coe¢ cient de corrélation

Lorsque les séries sont qualitatives, il arrive que les modalités d’un des deux caractères
soient ordinales( voir le chapitre1) [Fabrice (2006)], autrement dit que l’on puisse opérer un
classement sur ces modalités. Dans ce cas, au lieu de calculer la corrélation entre les valeurs
comme on le fait pour une variable, on calcule la corrélation entre les rangs des modalités. On
calcule alors un coe¢ cient appelé coe¢ cient de corrélation de rang de SPEARMAN.

La formule :

47
Chapitre 3. Statistique descriptive bivarié

P
6 N 2
i=1 di
rsp = 1 (3.20)
N (N 2 1)

où di est la di¤érence entre les rangs des valeurs correspondantes de X et de Y et N le


nombre d’observations.

3.8.2 Le test du khi-deux de PEARSONS

Dé…nition 3.8.1 [Fabrice (2006)] Lorsque les caractéres sont qualitatives l’étude de la cor-
rélation se fait par un test statistique développé par Karl PEARSONS et appelé test d’in-
dépendance du "Khi-deux".

3.8.3 test d’indépendance du "Khi-deux"

On considère ici un couple(X; Y ) de variables aléatoires. On suppose que X (resp:Y )

prend ses valeurs dans l’ensemble f1; :::; kg (resp:f1; :::; mg). Si pij = P (X = i; Y = j), on

représentera la loi du couple(X; Y ).

Le problème qui nous intéresse dans ce paragraphe est de tester l’indépendance des variables
X et Y .

Les variables X et Y sont indépendantes si et seulement si la loi P est le produit (tensoriel)


de ses lois marginales i.e.

[Meraghni (2017)]
8i = 1; :::; k; 8j = 1; :::; m; Pij = Pi: P:j (3.21)

3.8.4 E¤ectif théorique deux variable


ni: n:j
Dé…nition 3.8.2 [Grammont (2003)] On appelle E¤ ectif théorique la quantité uij = N
:

E¤ectif théorique= (total de la ligne total de la colonne)=N:

On dé…nit la quantité

48
Chapitre 3. Statistique descriptive bivarié

X Y Homme femme ni:


19ans et moins 30 20 50
De 20 à 24 ans 30 10 40
De 25 à 29 ans 40 50 90
30 ans et plus 10 10 20
n:j 110 90 200

Tab. 3.4 – Table le nombre de la Grise cardiaques, subies pas de hommes et des femmes
selon leur classé d’âge

X
m X
k
(nij uij )2
2
d = (3.22)
j=1 i=1
uij

d2 :Appelé distance de Khi-deux.

Exemple 3.8.1 [Meraghni (2017)] Le tableau suivant donnée le nombre de Grise cardiaques,
subies pas de hommes et des femmes selon leur classé d’âge pour un échantillon de 200(N =
200) personnes.

X :l’age) k = 4

Y :la sexe) m = 2

par dé…nition :
X
m X
k
(nij uij )2
2
d =
j=1 i=1
uij

En appliquant cette dé…nition aux données du tableau.


ni: n:j
Calcul e¤ectifs théoriques uij = N

n1: n:1 50 110


u11 = N
= 200
= 27:5
n1: n:2 40 90
u12 = N
= 200
= 18
40 110
u21 = 200
= 22
40 90
u22 = 200
= 18
90 110
u31 = 200
= 49:5
90 90
u32 = 200
= 40:5

49
Chapitre 3. Statistique descriptive bivarié

20 110
u41 = 200
= 11
20 90
u42 = 200
=9

e¤ectif observé nij 30 20 30 10 40 50 10 10

e¤ectif théorique uij 27:5 18 22 18 49:5 40:5 11 9

par dé…nition :
P Pk (nij uij )2
d2 = m j=1 i=1 uij
:G4

En appliquant cette dé…nition aux données du tableau , on obtient :


(30 27:5)2 2 2 2 2 2 2 2
d2 = 27:5
+ (20 1818) + (30 2222) + (10 1818) + (40 49:5
49:5)
+ (50 40:5
40:5)
+ (10 1111) + (10 9 9) = 11:168

3.9 Deux variables quantitatives

On s’intéresses à une statistique ayant deux dimensions que nous désignons par les variables
X et Y .On veut savoir si les deux variables sont liés par une liaison fonctionnelle du type
Y = f (X) (c’est-à-dire que l’on peut prévoir les valeurs de Y à partir des valeurs de X), ou
X = f (Y ) (c’est-à-dire que l’on peut prévoir les valeurs de X à partir des valeurs de Y ):

3.9.1 Coe¢ cient de corrélation

Dé…nition 3.9.1 [Meghlaoui (2011)] On appelle coe¢ cient de corrélation de deux variables
statistiques X et Y et on le note Corr(X; Y ) ou , la quantité dé…nie telle que :

cov(X; Y )
r = corr(X; Y ) = (3.23)
X Y

Remarque 3.9.1 [Hamdani (1988)] Le coe¢ cient de corrélation r est, à une constante prés,
le cosinus de l’angle entre les vecteurs X et Y :

On pour tout a; b; x0 ; y0 ; 2 !

50
Chapitre 3. Statistique descriptive bivarié

cov(aX + x0 ; bY + y0 ) ab cov(X; Y )
r(aX + x0 ; bY + y0 ) = = (3.24)
aX+x0 bY +y0 jabj X Y
8 9
>
< >
+r(X; Y ) si a et b de méme signe =
=
>
: r(X; Y ) si a et b de signe opposé >
;

–Si jrj = 1; alors il existe une relation linéaire entre X et Y:

–Si r = 0, il y a indépendance linéaire entre X et Y (mais il peut exister une autre forme
de dépendance):

–0 < jrj < 1 traduit une dépendance linéaire d’autant plus forte que jrj est grand.

3.9.2 Droite de régression

Dans le cas où on peut mettre en évidence l’existence d’une relation linéaire signi…cative entre
deux caractères quantitatifs continus X et Y (la silhouette du nuage de points est étirée dans
une direction), on peut chercher à formaliser la relation moyenne qui unit ces deux variables
à l’aide d’une équation de droite l’idée est de transformer un nuage de point en une droite.
Celle-ci doit être la plus proche possible de chacun des points. On cherchera donc à minimiser
les écarts entre les points et la droite.

Principe des moindres carrés ordinaire (MCO)

En général, les données prennent la forme de N couples (x1 ; y1 ); (x2 ; y2 ); :::; (xN ; yN ) que l’on
peut représenter par autant de points sur un plan cartésien. L’équation d’une droite est de
la forme

Y = aX + b (3.25)

Soit une droite donnée Y = a + bX, et soit d1 ; d2 ; :::; dN les distances verticales entre les
points et la droite. Ces distances sont représentées par les traits verticaux.

51
Chapitre 3. Statistique descriptive bivarié

La somme des carrés de ces distances servira de mesure globale de la distance entre les points
et la droite. On dé…nit formellement la distance D entre les points et la droite par :

X
D = d21 + d22 + ::: + d2N = d2i (3.26)

Si l’on dénote par yi^ la hauteur de la droite au point xi , c’est-à-dire

y^i = axi + b

alors di est donné par

di = jyi y^i j (3.27)

et

X 2
X
N X
N
2
D= jyi y^i j = (yi y^i ) = (yi axi b)2 = f (a; b) (3.28)
i=1 i=1

Nous souhaitons que cette distance soit petite : plus elle est petite, mieux la droite est ajustée
aux données. Puisque notre objectif est de trouver une droite qui s’ajuste le mieux possible
aux données, nous devons chercher la droite pour laquelle la distance D est minimale.

Propriété 3.9.1 [Meghlaoui (2011)] Soient X et Y deux variables statistiques dé…nies sur
la même population. La fonction numérique dé…nie sur R2 par l’équation (3:28) admet un
minimum au point (a; b) tel que :

cov(X; Y )
a= (3.29)
V (X)

b=Y aX (3.30)

Preuve. [Meghlaoui (2011)]On cherche les valeurs a et b dé…nissant la droite de régression


Y = aX + b sont minimal la fonction f (a; b) cette méthode s’appelle moinde carrés ordinaire.

52
Chapitre 3. Statistique descriptive bivarié

Alors (a; b) est solution du systeme

@f (a;b)
@a
=0
(3.31)
@f (a;b)
@b
=0

X
N
f (a; b) = (yi axi b)2
i=1

@f (a; b) X
N
= 2 (yi axi b)
@b i=1
XN X
N X
N
= 2 yi + 2a xi + 2b 1=0
i=1 i=1 i=1

X
N X
N
1 X
N
1 X
N
= yi a xi bN = yi a xi b=0
i=1 i=1
N i=1 N i=1

alors

b=Y aX

@f (a; b) X
N
= 2 xi (yi axi b)
@a i=1
XN X
N X
N
= 2 xi yi + 2a x2i + 2b xi = 0
i=1 i=1 i=1

53
Chapitre 3. Statistique descriptive bivarié

X
N X
N X
N
xi yi a x2i b xi = 0
i=1 i=1 i=1
X
N X
N X
N
xi yi = a x2i + (Y aX) xi
i=1 i=1 i=1
XN XN
2
xi yi = a x2i + N Y X N aX
i=1 i=1
XN XN
2
xi yi = a( x2i NX ) + NY X
i=1 i=1

alors

PN
i=1 xi yi NY X
a= P N 2
i=1 x2i NX

Sachant que :

Par l’équation (2:15)


P Pi=N Pi=N
cov(X; Y ) = N1 i=N
i=i (xi X)(yi Y ) = N1 i=1 xi yi XY = 1
N
( i=1 xi yi N XY )
P
) N cov(X; Y ) = i=N i=1 xi yi N XY :::::::::::::(1)
P P 2 Pi=N 2
cov(X; X) = V (X) = N1 i=N i=i (xi X)2 = N1 i=N i=i xi
2
X = 1
N
( i=i x2i NX )
P 2
) N V (X) = i=N i=i xi
2
N X :::::::::::::::::(2)

D’apré (1) et (2)

N cov(X; Y ) cov(X; Y )
a= =
N V (X) V (X)
cov(X;Y ) y
Remarque 3.9.2 [Meghlaoui (2011)] a = V (X)
= corr(X; Y ) x

En e¤et
cov(X;Y )
a= x x
y
y
= f cov(X;Y
x y
)
g y
x
= corr(X; Y ) x
y

Exemple 3.9.1 [Monino et al (2010)]On veur étudier la liaison entre la consommation et


revenu des ménages, pour cela vous avez ci-dessous le tableau des données.

54
Chapitre 3. Statistique descriptive bivarié

X Y
Observation Années Revenu Consommation
1 2005 238 199
2 2006 257 208
3 2007 270 221
4 2008 290 237
5 2009 303 254
6 2010 319 268
7 2011 333 280
8 2012 351 293
9 2013 369 307
10 2014 387 323
Total 3117 2590

Tab. 3.5 –Table Représenter relation entre la consommation et revenu des ménages

Tableau des observations revenu/consommation des ménages

Calculer la covariance entre X et Y .

Calculer le coe¢ cient de corrélation linéaire entre X et Y .

Calculer le droite de régression Y = aX + b:

Solution 3.9.1 :

1) Calcul la covariance
P Pi=N
cov(X; Y ) = N1 i=N
i=i (xi X)(yi Y ) =
1
N i=1 xi yi XY = 1
10
826039 311:7 259 = 1873:6

2) Calcul de coe¢ cient de corrélation linéaire


cov(X;Y )
r = corr(X; Y ) = X Y

Calcul les écarts-types


p q P q PN q
1 i=N 1
PN 2 xi 2 1
X = V (X) = N i=1 (xi X)2 = N i=1 xi ( i=1
N
) = 10
993283 (311:7)2 =
46:6 =
p q P q PN q
PN yi 2
Y = V (Y ) = N1 i=N
i=1 (yi Y )2 = 1
N
2
i=1 yi ( i=1
N
) = 1
10
687042 (259)2 =
40:289

Alors
1873:6
r= 46:598 40:289
= 0:998

55
Chapitre 3. Statistique descriptive bivarié

3) Étude droite d’ajustement Y = aX + b


cov(X;Y ) cov(X;Y ) 1873:6
a= V (X)
= 2 = (46:598)2
= 0:863
X
PN PN
yi xi
b=Y aX = i=1
N
a i=1
N
= 259 0:863 311:7 = [Link]

Y = 0:863X [Link]

56
Chapitre 4

Application avec Logiciel R

4.1 Statistique descriptive univariée

Exemple 4.1.1 Le tableau suivant représente l’évolution du virus Corona en Algérie pour
le mois de Ramadan et Shawwal

E¤ectifs groupés par classes d’amplitudes égal

Population : Le nombre de malades du virus en Algérie pour le mois de Ramadan et


Shawwal.

Unité statistique : Une personne malade du virus Corona.

Caractère : Les caractères quantitatives continue

Echantillon : Le nombre de malades du virus en Algérie c’est en fait un nombre moins.

57
Chapitre [Link] R

Jours x Líamplitude ai Centres Ci De nombre des infectés ni

[1; 5] 4 3 642

[6; 10] 4 8 825

[11; 15] 4 13 895

[16; 20] 4 18 884

[21; 25] 4 23 948

[26; 30] 4 28 912

[31; 35] 4 33 884

[36; 40] 4 38 629

[41; 45] 4 43 528

[46; 50] 4 48 544

[51; 55] 4 53 570

[56; 60] 4 58 652

Total 8913

Tab. 4.1 –Table représente l’évolution du virus Corona en Algérie

Solution 4.1.1 :

1) Les caractéristiques de tendance centrale :

x=c(3,8,13,18,23,28,33,38,43,48,53,58)

n=c(642,825,895,884,948,912,884,629,528,544,570,652)

Y=rep(x,n)

N=sum(n)

hist(Y,xlab="x",ylab="E¤ectifs",main="")

segments(20,948,25,912,col=2)

segments(20,884,25,948,col=2)

arrows(x0=23.25,y0=0,x1=23.25,y1=925,col="blue")

text(23.25,0,labels="mode",col="blue")# Mode

58
Chapitre [Link] R

Fig. 4.1 –Histogramme des e¤ectifs et le mode

Commentaire :

Je constate d’après le tableau et le graphique une augmentation notable du nombre des


infectés pendant le mois de Ramadan, puis on remarque une diminution progressive des
infectés avec le temps.

Hypothèses :

La diminuation de nombre des infectés est dû à plusieurs facteurs.

L’e¤et de l’augmentation température l’application de con…nement.

L’orientation naturelle reconnue des épidémies haute e et baisse.

Le manque ‡agrant des appareils développés pour détecter le Corona virus.

En langage R

median(Y)# Le mediane

[1] 28

mean(Y)# La moyenne

[1] 28.42242

2) Les caractéristiques de dispersion :

En langage R

59
Chapitre [Link] R

max(Y)# Maximum

[1] 58

min(Y)# Minimum

[1] 3

E=max(Y)-min(Y)# L’étendue

[1] 55

quantile(Y)#Les quartiles
0% 25% 50% 75% 100%
3 13 28 43 58
IQR(Y)# Intervalle interquartile

[1] 30

var(Y)# La variance

[1] 270.1509

N*var(Y)/(N-1)# Estimateur sans biais de la variance

[1] 270.1812

sqrt(N*var(Y)/(N-1))# Lécart-type s2

[1] 16.43719

sd(Y)# L’écart-type

[1] 16.43627

CV=sd(Y)/mean(Y)# Le co¢ cient de variation

[1] 0.5782853

3) Mesures de forme :

En langage R

AP=(sum((Y-mean(Y))^3)/N)^2/(sum((Y-mean(Y))^2)/N)^3# Le coe¢ cient d’asymétrie


de Pearson

[1] 0.05981674

60
Chapitre [Link] R

AF=sqrt(AP)# Le coe¢ cient d’asymétrie de Fisher

[1] 0.2445746

Remarque 4.1.1 :

Nous remarquons que : AP' 0 (ou AF est nul) alors la disribution symétrique! Mo Me
X:

En langage R

APP=(sum((Y-mean(Y))^4)/N)/(sum((Y-mean(Y))^2)/N)^2# Le coe¢ cient d’aplatissement


de Pearson

[1] 1.983556

APF=APP-3# Le coe¢ cient d’aplatissement de Fisher

[1] -1.016444

Remarque 4.1.2 Nous remarquons que : APP 3 (ou APF 0) alors la courbe platykurtique.

résumé

Après la …n de ka crise l’épidémie de corona virus le covid-19, le monde sera di¤érent de


ce qu’il était auparavant, notre immunité sera plus forte ainsi que notre résistance et nous
puissions trouver des nouvelles solutions innovantes et à changer notre façon de travailler et
de vivre.

4.2 Statistique descriptive bivarié

4.2.1 Deux variables quantitatives

Exemple 4.2.1 On veur étudier la liaison entre la consommation et revenu des ménages,
pour cela vous avez ci-dessous le tableau des données.

61
Chapitre [Link] R

X Y

Observation Années Revenu Consommation

1 2005 238 199

2 2006 257 208

3 2007 270 221

4 2008 290 237

5 2009 303 254

6 2010 319 268

7 2011 333 280

8 2012 351 293

9 2013 369 307

10 2014 387 323

Total 3117 2590

Tab. 4.2 –Table Représenter relation entre la consommation et revenu des ménages

Solution 4.2.1 :

On peut obtenir la moyenne marginale et la variance marginale et l’écart-type et covariance


et coe¢ cient de corrélation.

En langage R :

> Revenu=c(238,257,270,290,303,319,333,351,369,387)

> Consommation=c(199,208,221,237,254,268,280,293,307,323)

> N=length(Revenu)# Taille d’un population

> N=length(Consommation)

> mean(Revenu)# Moyenne marginale de X

[1] 311.7

> mean(Consommation)# Moyenne marginale de Y

[1] 259

62
Chapitre [Link] R

> v1=sum((x-mean(Revenu))^2)/N# Variance marginale de X

[1] 2171.41

> var(Revenu)# Variance par échantillon

[1] 2412.678

> v2=sum((y-mean(Consommation))^2)/N# Variance marginale de Y

[1] 1623.2

> var(Consommation)# Variance cas echanti

[1] 1803.556

> s1=sqrt(v1)# L’écart-type marginale de X

[1] 46.59839

> sd(Revenu)# L’écart-type cas échantillon

[1] 49.11902

> s2=sqrt(v2)# L’écart-type marginale de Y

[1] 40.28896

> sd(Consommation)

[1] 42.46829

> c12=sum((x-mean(Revenu))*(y-mean(Consommation)))/N# Covariance de X; Y

[1] 1873.6

> r=c12/(s1*s2)# Coe¢ cient de corrélation.

[1] 0.9979756

Remarque 4.2.1 Nous remarquons que : jrj ' 1 alors il existe une relation linéaire entre
X et Y:

Calculer la droite d’ajustement : Y = aX + b

En langage R :

> a=c12/v1

63
Chapitre [Link] R

[1] 0.8628495

> b=mean(Consommation)-a*mean(Revenu)

[1] -9.950184

alors Y = 0:863X [Link]

Représentation graphique du nuage de poits de la relation : Y = aX + b:

En langage R :

> plot(Revenu,Consommation)

> x=220 :20 :400

> lines(x,0.863*x-9.950)

Fig. 4.2 –Le droite de régression

64
Conclusion

N
ous sommes arrivés au terme de la thèse scienti…que liée aux statistiques descrip-
tives. J’ai essayé autant que possible de développer ce sujet. De nombreux exemples
simples et clairs ont été utilisés pour transmettre des informations, des technologies modernes
telles que Logicial R ont été utilisées pour résoudre le problème dans les plus brefs délais et
des graphiques ont été utilisés, bien qu’ils n’aient rien à voir avec des concepts mathéma-
tiques, mais ils illustrent des concepts mathématiques dans Mindful People, en particulier
ceux qui n’étudient pas Statistiques.

Mon objectif principal dans cette thèse était de déterminer l’importance des statistiques
descriptives dans notre vie quotidienne.

La descriptive des statistiques nous aide à rendre beaucoup de choses plus faciles. Le résultat
est négatif à moins que les informations ne soient inexactes, nous devons con…rmer la source.

De nombreux aspects peuvent être ajoutés, car le sujet des statistiques descriptives est vaste,
nous proposons :

L’étude des statistiques descriptives univariée dans une cas conditionnelle.

Une étude descriptive deux variables dans le cas d’une variable quantitative et d’une autre
variable qualitative.L’étude des statistiques descriptives pour plusieurs variables.

En …n de compte, j’espère à Dieu que ma thèse sera béné…que à la prochaine génération,


et je conclus ma recherche en disant au nom de Dieu, le Compatissant, le Miséricordieux "
Allah élèvera en degrés ceux d’entre vous qui auront cru et ceux qui auront reçu le savoir".Al-
Mujadalah-11.

65
Conclusion

Al-Shafei, que Dieu ait pitié de lui, a dit : "La connaissance n’est pas préservée, mais la
connaissance est béné…que."

66
Bibliographie

[Monino et al (2010)] Monino, Jean-Louis, Jean-Michel Kosianski, and Fran-


çois Le Cornu. Statistique descriptive. Dunod, 2010.

[Hamdani (1988)] Hamdani, Hocine. "Statistique descriptive et expression


graphique." (1988).

[Lethielleux (2016)] Lethielleux, Maurice. Statistique descriptive-8e éd. : en


27 …ches. Dunod, 2016.

[Grais (1991)] Grais, Bernard. "Statistique descriptive." (1991).

[Dagnelie (2006)] .Dagnelie, Pierre. Statistique théorique et appliquée : 2.


Inférence statistique à 1 et 2 dimensions. Vol. 2. De Boeck
Supérieur, 2006.

[Alalouf et al (2002)] Alalouf, Serge, Denis Labelle, and Jean Ménard. Intro-
duction à la statistique appliquée. Loze-Dion, 2002.

[Chekroun (2018)] Chekroun, Abdennasser. "Statistiques descriptives et


exercices." (2018).

[Goldfarb, Catherine (2011)] Goldfarb, Bernard, and Catherine Pardoux. Introduction


à la méthode statistique : manuel et exercices corrigés.
Dunod, 2011.

[Leboucher, Marie (2013)] Leboucher, Lucien, and Marie-José Voisin. Introduction à


la statistique descriptive : cours et exercices avec tableur.
Cépaduès éd., 2013

67
Bibliographie

[Lethielleux, Chevalier (2017)] Lethielleux, M., & Chevalier, C. (2017). Exercices de sta-
tistique et probabilités-3e éd. : Avec rappels de cours.
Dunod.

[Bahouayila (2016)] Bahouayila, Bardin. "Cours de statistique descriptive."


(2016).

[Baccini (2010)] Baccini, Alain. "Statistique descriptive élémentaire." Ins-


titut de Mathématiques de Toulouse (2010).

[Fabrice (2006)] Fabrice, Mazerolle. "Statistique descriptive." (2006).

[Hachmi] Hachmi, [Link] statistiques descriptives de pre-


mière année è[Link]é Mohamed Khider de
Biskra.

[Hammed (2012)] Hammed, Mountassir. "La statistique descriptive."


(2012).

[Mémoire (2018)] Mémoire Master. "Statistique descriptive univariée".


(2018).

[Meghlaoui (2011)] Meghlaoui, Dakhmouche. "Introduction à la statistique


descriptive." (2011).

[Grammont (2003)] Grammont, Laurence. "Cours de statistiques infren-


tielles." (2003).

[Meraghni (2017)] Meraghni, Djamel. "Cours de tests statistiques première


master." (2017).Université Mohamed Khider de Biskra.

[Vessereau (1965)] Vessereau, A. "Les méthodes statistiques appliquées au


test des caractères organoleptiques." Revue de statistique
appliquée 13.3 (1965) : 7-38.

[Mehl (1996)] Mehl, S. "Chronomath, Une chronologie des mathéma-


tiques à l’usage des professeurs de mathématiques et des
élèves des lycées & ; collèges." (1996).

68
Bibliographie

[Université (2010)] Université libre de bruxelles. "Sta-


tistique descriptive univariée."
http ://[Link]/statistique2010/co/Module_statistique_FSP.h

69
Annexe : Abréviations et Notations

Les di¤érentes abréviations et notations utilisées tout au long de ce mémoire sont expliquées
ci-dessous :

Symbole Signi…cation
: Population l’ensemble sur lequel porte notre étude statistique.
! : Individu tout élément de la population :
V:S : La variable statistique.
X : Caractère.
C : Ensemble des valeurs du caracère X:
N : La taille d’un population ou e¤ectif total.
N : Ensemble des nombres entiers naturels.
Q : Ensemble des nombres entiers décimaux.
Card( ) : Le cardinal : Nombre d’éléments de l’ensemble
:= : Est dé…ni comme étant (symbole d’a¤ectation):
ni : E¤ectif observé dans la classe i
Pk
i=1 : La somme pour i variant de 1 à k.
f : Fonction de densitée.
ECC : E¤ectif cumulé croissant.

70
Annexe B : Abréviations et Notations

F CC : Fréquence cumulée croissante.


ECD : E¤ectif cumulé décroissante.
F CD : Fréquence cumulée décroissante.
F (x) : Fonction de rèpartition.
f : Fréquence
Ci : Centre de classe

AP : Coe¢ cient d’asymétrie de Pearson


AF : Coe¢ cient d’asymétrie de Fisher
APP : Coe¢ cient d’aplatissement de Pearson
APF : Coe¢ cient d’aplatissement de Fisher
X2 : Loi khi-deux
N (0; 1) : Loi normale standard
P : Probabilité
d2 : Distance
Y : Caractère
M OC : Moindres carrés ordinaire
r : Co¢ cient de corrélation
f (:) : fonction

71

Vous aimerez peut-être aussi