0% ont trouvé ce document utile (0 vote)

57 vues66 pages

Vocabulaire de la Statistique Descriptive

Ce document présente le vocabulaire de base de la statistique descriptive. Il définit les termes clés comme population, échantillon, variable, caractère, ainsi que les différents types de variables et de caractères. Le document décrit également comment construire des tableaux statistiques pour décrire des données.

Transféré par

hamza.saber859

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

57 vues66 pages

Vocabulaire de la Statistique Descriptive

Transféré par

hamza.saber859

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

STATISTIQUE DESCRIPTIVE

CP2 ENSA AGADIR

LAKHNATI GHIZLANE
Plan 2

1. Vocabulaire de la statistique descriptive;

2. Statistiques descriptives à une dimension:
(a) Caractère qualitatif
(b) Caractère quantitatif
(c) Tableaux et graphiques;
(d) Tendance, dispersion et indicateurs.
3. Les séries statistiques deux dimensions:
(a) Covariance et corrélation;
(b) Ajustement linéaire.
(c) Tableaux des contingence;
Vocabulaire de la statistique descriptive 3

Définition:
La statistique descriptive: est un ensemble de méthodes permettent de décrire
et d’analyser de façon quantifiée, des phénomènes observés.

Deux points importants ressortent de cette définition:

1) Ensemble de méthodes : la statistique descriptive ne contient aucune théorie,

mais seulement des outils d’investigation et de mesure des données chiffrées.

2) Décrire analyser et résumer: faire des tableaux, des graphiques et calculer

des moyennes afin de faire ressortir la signification.
Vocabulaire de la statistique descriptive 4

La statistique descriptive appartient cependant à un ensemble plus vaste, la

statistique générale, qui se divise en deux branches : statistique descriptive et
la statistique ”inférentielle”, dont l’objet est de formuler des lois de
comportement à partir d’observation souvent incomplètes.
Cette dernière intervient dans les enquêtes et les sondages.
Elle s’appuie non seulement sur la statistique descriptive, mais aussi sur le
calcul des probabilités.
Vocabulaire de la statistique descriptive 5

Ensemble statistique ou population : réunion des individus sur lesquels on

étudie une ou plusieurs propriétés. Par exemple des individus, des entreprises,
des ménages.

Unité statistique : chaque individu. Par exemple: un étudiant, un salarié, une

famille.

Echantillon : groupe restreint, ou sous-ensemble, issu de la population.

Echantillon aléatoire : les résultats recueillis sur ce sous-ensemble doivent

pouvoir être étendus, c’est-à-dire inférés, à la population entière.
Vocabulaire de la statistique descriptive 6

Sur ces unités, on mesure une variable ou un caractère, le chiffre d’affaires

de l’entreprise, le revenu du ménage, l’âge de la personne, la catégorie
socioprofessionnelle d’une personne.

Variable ou caractère : ce qui est observé ou mesuré sur les individus d’une
population.

On suppose que la variable prend toujours une seule valeur sur chaque unité.
Les variables sont désignées par simplicité par une lettre (X, Y, Z).

• Les valeurs possibles de la variable, sont appelées modalités.

• L’ensemble des valeurs possibles ou des modalités est appelé le domaine de

la variable.
Vocabulaire de la statistique descriptive 7

Une Variable peut être:

• Qualitative:
– Ordinale
– Nominale
• Quantitative:
– Discrète
– Continue
Vocabulaire de la statistique descriptive 8

Variable quantitative : ses valeurs sont des nombres exprimant une

quantité, comme le poids, taille, le salaire, le prix...

Elle peut être:

• Discrète: si l’ensemble des valeurs possibles est dénombrable.
Les modalités de la variable nombre d’enfants par famille sont 0,1,2,3,4,5,...

• Continue: selon la nature de l’ensemble des valeurs qu’elle est suceptible

de prendre.
L’âge est théoriquement une variable quantitative continue, mais en
pratique, l’âge est mesuré dans le meilleur des cas au jour près.
Vocabulaire de la statistique descriptive 9

Variable qualitative: ses valeurs sont des modalités ou catégories, exprimées

sous forme littérale ou par un codage numérique. ex : couleur des yeux, sexe,
vrai ou faux,... Elle peut être:
• Nominale : La variable est dite qualitative nominale quand les modalités
ne peuvent pas être ordonnées. Exemple: sexe, couleur, religion...
Les modalités de la variable sexe sont masculin (codé M) et féminin (codé
F). Le domaine de la variable est {M, F }.
• Ordinale : La variable est dite qualitative ordinale quand les modalités
peuvent être ordonnées. Exemple: la taille vestimentaire, la qualité...
Le fait de pouvoir ou non ordonner les modalités est parfois discutable.
Par exemple : dans les catégories socioprofessionnelles, on admet
d’ordonner les modalités : ”ouvriers”, ”employés”, ”cadres”. Si on ajoute
les modalités ”sans profession”, ”enseignant”, ”artisan”, l’ordre devient
beaucoup plus discutable.
Vocabulaire de la statistique descriptive 10

Une variable statistique ou aléatoire est notée par une lettre majuscule X, Y ,
et les valeurs ou les modalités qu’elle prend par des lettres minuscules x1 ,
x2 ,..., y1 , y2 ,...

Exemple: On s’intéresse à la variable ”état-civil” notée X et à la série

statistique des valeurs prises par X sur 20 personnes. La codification est:
C : célibataire,
M : marié(e),
V : veuf(ve),
D : divorcée.

Le domaine de la variable X est {C, M, V, D}.

M M D C C M C C C M
C M V M V D C C C M

x1 = M , x2 = M , x3 = D, x4 = C, x5 = C, . . . ., x20 = M .
Vocabulaire de la statistique descriptive 11

Dans le cas des variables discrètes de valeurs x1 , x2 ..., xp , on appelle:

• Effectif total: n le nombre total de données ou la taille de la population
ou l’échantillon.
• Effectif, ni associé à une valeur xi de la variable aléatoire X, le nombre
d’apparitions de cette variable dans la population ou dans l’échantillon.
Pp
Avec n = i=1 ni .
• Fréquence relative, associée à la valeur xi de la variable aléatoire X, le
nombre fi = nni .
• Effectif cumulé, associé à une valeur xi de la variable, le nombre
Pi
d’individus dont la mesure est inférieure ou égale à xi . Ni = k=1 nk .
Pi
• On définit la fréquence cumulée relative: Fi = k=1 fk .
Vocabulaire de la statistique descriptive 12

Un quartier est composé de 50 ménages, et la variable Z représente le nombre

de personnes par ménage. Les valeurs de la variable sont

1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8
Donner le tableau statistique: Calculer les fréquences relatives, les effectifs
cumulés et les fréquences cumulées.
Vocabulaire de la statistique descriptive 13

xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
Total 50 1.0
Vocabulaire de la statistique descriptive 14
Une variable quantitative continue peut prendre une infinité de valeurs
possibles. Le domaine de la variable est alors R ou un intervalle de R. En
pratique, une mesure est limitée en précision. La taille peut être mesurée en
cm ou en mm. On peut alors traiter les variables continues comme des
variables discrètes. Cependant, pour faire des représentations graphiques et
construire le tableau statistique, il faut procéder à des regroupements en
classes. Le tableau regroupé en classe est souvent appelé distribution groupée.
− +
cj , cj designe la classe j, on note:
• c−
j : la borne inférieure de la classe j.

• c+
j : la borne supérieure de la classe j.

c− +
j +cj
• cj = 2 : le centre de la classe j.
−
• aj = c+
j − cj : l’amplitude de la classe j.

• nj : l’effectif de la classe; fj : la fréquence de la classe, Nj : l’effectif cumulé

et Fj : la fréquence cumulé de la classe j.
Vocabulaire de la statistique descriptive 15

Les classes peuvent être d’égale amplitude ou non; on choisit, soit le nombre de
classes, soit l’amplitude des classes.
En général, le nombre de classes est compris entre 5 et 20; il dépend du nombre
n d’observations et de l’étalement des données.

Il existent des formules qui nous permettent d’établir le nombre de classes et

l’intervalle de classe (l’amplitude) pour une série statistique de n observations.
Règle de Sturg : nombre de classe = 1 + 3.3log10 (n).
1
Règle de Yule : nombre de classe = 2.5.n 4 .
aj amplitude ou intervalle de classes est
(xmax − xmin )
aj = ,
nbr de classes
avec xmax et xmin , resp, sont la plus grande et la plus petite valeur de la
variable X dans la série statistique.
Vocabulaire de la statistique descriptive 16

Exemple:
On mesure la taille en centimetres de 50 élèves d’une classe:
152 152 152 153 153
154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171
Vocabulaire de la statistique descriptive 17

Le tableau statistique:
− +
cj , cj nj Nj fj Fj
[151.5; 155.5[ 10 10 0.20 0.20
[155.5; 159.5[ 12 22 0.24 0.44
[159.5; 163.5[ 11 33 0.22 0.66
[163.5; 167.5[ 7 40 0.14 0.80
[167.5; 171.5[ 10 50 0.20 1.00
Total 50 1.00
Les représentations graphiques 18
Variables discrètes:
Soient x1 , x2 , ...,xp les valeurs possibles d’une variable quantitative discrète X,
et n1 , n2 , ...,np les effectifs correspondants.

Diagramme en batôns:
Est constitué par les segments qui relient le point (xi , 0) au point (xi , ni ) pour
i = 1, ..., p.
On peut remplacer les effectifs ni par les fréquences fi en (%).

Polygone des effectifs ou des fréquences :

Ils s’obtienent respectivement, en joignant par un trait les différents points de
cordonnées (xi , ni ) et (xi , fi (%)).

Courbe des fréquences cumulées (ou courbe cumulative): La courbe cumulative

est obtenue à partir des fréquences cumulées ; c’est la courbe de la fonction F
suivante: F (x) = 0, si x < xmin ; F (x) = Fj , si xj ≤ x < xj+1 et
F (x) = 1, si x ≥ xmax Elle se présente comme une courbe en escalier, chaque
segment de cette courbe est ouvert à gauche et fermé à droite sauf le dernier.
Les représentations graphiques 19
Variables continues:
L’histogramme:
Un histogramme est constitué de rectangles juxtaposés dont la base correspond
à l’amplitude de chaque classe et dont la surface est proportionnelle à l’effectif
ou la fréquence relative.
L’histogramme est un outil statistique facile utiliser, donnant rapidement une
image du comportement d’un procédé et l’allure globale de la distribution; il
montre l’étalement des données et apporte ainsi des renseignements sur la
dispersion et sur les valeurs extrêmes; il permet de déceler, éventuellement, des
valeurs aberrantes.
Pour un histogramme des effectifs, la hauteur du rectangle correspondant à la
n
classe j est donc donnée par: hj = ajj .
• On appelle hj la densité d’effectif.
• L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de
chaque rectangle est égale à l’effectif de la classe j : aj × hj = nj .
fj
Pour un histogramme des fréquences on a dj = aj .

• On appelle dj la densité de fréquence.

Les représentations graphiques 20

• L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle est

égale à la fréquence de la classe j : aj × dj = fj .
Les représentations graphiques 21

Variables continues:

Polygone de fréquences:
Il permet de représenter sous forme de courbe, la distribution des fréquences
absolues ou relatives. Il est obtenu en joignant, par des segments de droite, les
milieux des côtés supérieurs de chaque rectangle de l’histogramme. Pour
fermer ce polygone, on ajoute à chaque extrémité une classe de fréquence nulle.

Courbes de fréquences cumulées: on joint les points ayant pour abscisses la

limite supérieure des classes et pour ordonnées les fréquences cumulées
croissantes correspondant à la classe considérée (pour le premier point, on
porte la valeur 0). Elle donne le nombre d’observations inférieures à une valeur
quelconque de la série.
Les représentations graphiques 22

Variables Qualitatives:
Soit X une variable qualitative pouvant prendre k modalités x1 , x2 , ...,xk
. Le tableau statistique d’une variable qualitative peut être représenté par
deux types de graphique. Les effectifs sont représentés par un diagramme en
barres et les fréquences par un diagramme en secteurs (ou camembert):

Diagrammes en colonnes ou à bandes;

Le diagramme en secteurs circulaires consiste en un cercle découpé en secteurs

circulaires; l’aire de chaque secteur, représentant la proportion des différentes
composantes d’un tout, est proportionnelle aux fréquences relatives ou effectifs.
Les représentations graphiques 23
Exemple:
On interroge 50 personnes sur leur dernier diplôme obtenu (variable Y ). La
codification a étf́aite selon le Tableau ci-dessous.
Dernier diplôme obtenu xj
Sans diplôome Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U
On a obtenu la série de données

Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U

Donner le tableau statistique et les représentations graphiques possibles.

Indicateurs 24
Tendance centrale: Elles donnent une idée de l’ordre de grandeur des valeurs
constituant la série. Les principales caractéristiques de tendance centrale sont
la moyenne arithmétique, la médiane, le mode et les quantiles.
Moyenne arithmétique:
La moyenne ne peut être définie que sur une variable quantitative.
Cas 1 : La moyenne est la somme des valeurs observées divisée par leur nombre
:
n
1X
x= xi .
n i=1
Cas 2 : La moyenne peut être calculée à partir des valeurs distinctes xj et des
effectifs nj :
k
1X
x= nj xj .
n i=1
Exemple:
Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4. La
moyenne est: x̄ = 0+0+1+1+1+2+3+4
8 = 12
8 = 1.5
ou x̄ = 20+31+12+13+14
8 = 1.5
Indicateurs 25

Moyenne géométrique:
Si xi ≥ 0, on appelle moyenne géométrique la quantité:
n
! n1
Y 1
G= xi = (x1 × x1 × ... × xn ) n

i=1
Indicateurs 26
Médiane: La médiane est plutôt une moyenne de position.
La médiane est la valeur, observée ou possible, dans la série des données
classées par ordre croissant (ou décroissant) qui partage cette série en deux
parties comprenant exactement le même nombre de données de part et d’autre
de M e.

On distingue 3 cas.

Cas 1 : données non réparties en classes:

• pour une série ayant un nombre impair de données, la médiane est une valeur
observée de la série: Me = x n+1 .
2
• pour une série ayant un nombre pair de données, on peut prendre pour valeur
médiane, l’une ou l’autre des valeurs centrales ou n’importe quelle valeur
intermédiaire entre ces deux valeurs, par exemple, la moyenne arithmétique de
ces deux valeurs, mais, dans ces conditions, ce n’est pas une valeur observée:
x n +x n +1
Me = 2
2
2
.
Indicateurs 27

Exemple: Etude de deux séries d’observations.

On considère les séries d’observations suivantes.
Série I : 5 observations classées par ordre croissant, 2, 5, 8, 11, 14.
Moyenne arithmétique 8, médiane 8.

Série II : 6 observations classées par ordre croissant, 6, 6, 14, 16, 18, 18.
Moyenne arithmétique 13, médiane 15.

Série III : les deux séries précédentes réunies, 2, 5, 6, 6, 8, 11, 14, 14, 16, 18,
18.
Moyenne arithmétique 10.72, médiane 11
Indicateurs 28

Cas 2: Données groupées par valeur:

Pour déterminer la médiane, on repère 0.5 dans la colonne des fréquences
cumulées F (x) ou bien n2 dans la colonne des effectifs cumulés N (x). On
choisit ensuite la valeur F (x) égale ou immédiatement supérieure à 0.5 (ou la
valeur N (x) égale ou immédiatement supérieure à n2 ).
Indicateurs 29

Exemple:

xi ni fi F (x) N (x)
2 2 0.066 0.066 2
8 3 0.1 0.166 5
9 4 0.133 0.3 9
10 4 0.133 0.433 13
11 5 0.167 0.6 18
12 3 0.1 0.7 21
13 6 0.2 0.9 27
15 1 0.033 0.933 28
18 2 0.067 1 30
Indicateurs 30

Cas 3 : La médiane: si données réparties en classes:

Dans ce cas, pour calculer la médiane,

c− +

1) Il faut déterminer la classe médiane: c’est la première classe i , ci dont la
fréquence cumulée est supérieure ou égale à 0.5. Puis

2) Il faut appliquer la formule suivante :

n
− Ni−1
Me = c−
i + ai 2
ni
Avec ai est l’amplitude de la classe médiane;
ni est l’effectif de la classe médiane;
Ni−1 est l’effectif de la classe qui précède la classe médiane.
Indicateurs 31

Exemple:

classe ni N (x)
[0, 5[ 2 2
[5, 10[ 7 9
[10, 15[ 18 27
[15, 20[ 3 30
M e = 11.666
Indicateurs 32

Mode:
Le mode est la valeur de la variable statistique la plus fréquente que l’on
observe dans une série d’observations.
Si la variable est une variable discrète, le mode s’obtient facilement. Si la
variable est une variable continue, on définit une classe modale.
• Le mode n’existe pas toujours et quand il existe, il n’est pas toujours unique.
• Si après regroupement des données en classes, on trouve deux ou plusieurs
modes différents, on doit considérer que l’on est en présence de deux ou
plusieurs populations distinctes ayant chacune leurs caractéristiques propres;
dans ce cas, la moyenne arithmétique n’est pas une caractéristique de tendance
centrale.
Indicateurs 33

Exemple:
Série I : pas de mode.

Série II : deux modes 6 et 18.

Série III : les deux séries réunies, trois modes 6, 14 et 18.

Indicateurs 34

Le Mode: Si les données sont réparties en classes:

Dans ce cas, pour calculer le mode:
1) Il faut tout d’abords déterminer la classe modale: c’est la classe d’effectif
maximal. Puis,
2) Il faut appliquer la formule suivante :
ni − ni−1
M o = c−
i + ai
2ni − ni−1 − ni+1
Avec ai est l’amplitude de la classe modale;
ni est l’effectif de la classe modale;
ni−1 est l’effectif de la classe qui précède la classe modale;
ni+1 est l’effectif de la classe qui suit la classe modale;

Exemple: M o = 12.115.
Indicateurs 35

Effectifs groupés par classes d’amplitudes inégales:

Exemple:
ni
classe ni ai hi = ai
[0, 10[ 9 10 0.9
[10, 12[ 9 2 4.5
[12, 20[ 12 8 1.5
Dans ce cas, pour calculer le mode, il faut appliquer la formule précédente,
mais la définition de d1 et de d2 change, car il faut remplacer les effectifs ni par
les amplitudes corrigées hi .

M o = 11.09
Indicateurs 36

Quantiles:
Cette notion est très utilisée dans les sciences humaines.
Les quantiles sont des caractéristiques de position partageant la série
statistique ordonnée en k parties égales.
Pour k = 4, les quantiles, appelés quartiles, sont trois nombres Q1 , Q2 , Q3 tels
que:
25% des valeurs prises par la série sont inférieures à Q1 ,
25% des valeurs prises par la série sont supérieures à Q3 ,
Q2 est la médiane M e , Q3 − Q1 est l’intervalle interquartile, il contient 50%
des valeurs de la série.
Indicateurs 37

Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,34 contenant 12
observations

Q1 = 15.5, Q2 = 20.5, Q3 = 26

Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27 contenant 10
observations

Q1 = 15, Q2 = 18.5, Q3 = 24
Indicateurs 38

Caractéristiques de dispersion:
Ces caractéristiques quantifient les fluctuations des valeurs observées autour de
la valeur centrale et permettent d’apprécier l’étalement de la série. Les
principales sont : l’écart-type ou son carré appelé variance et l’étendue.

Variance et écart-type:
La variance, notée V ar(X) ou σ 2 , est appelée aussi écart quadratique moyen
ou variance empirique. La racine carrée de la variance est appelée écart-type.
C’est la moyenne de la somme des carrés des écarts par rapport à la moyenne
arithmétique.
Indicateurs 39

Cas 1: n données non réparties en classes:

n
2 1X
V ar(X) = σ = (xi − x)2
n i=1

ou bien
n
2 1X 2
V ar(X) = σ = xi − x2
n i=1
Cas 2 : n données réparties en k classes, la classe i étant d’effectif ni :
k
2 1X
V ar(X) = σ = ni (ci − x)2
n i=1

ou bien
k
2 1X
V ar(X) = σ = ni c2i − x2
n i=1
Indicateurs 40

Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8.

x̄ = 2+3+4+4+5+6+7+9
8P = 5.
n
V ar(X) = n1 i=1 (xi − x)2
V ar(X) =
1
2 2 2 2 2 2 2 2

8 (2 − 5) + (3 − 5) + (4 − 5) + (4 − 5) + (5 − 5) + (6 − 5) + (7 − 5) + (9 − 5)
V ar(X) = 4.5

ou, on peut également utiliser la deuxième formule de la variance, ce qui

nécessite moins de calcul:

1
P n 2 2
V ar(X) = n x
i=1 i − x
1 2 2 2
V ar(X) = 8 (2 + 3 + 4 + 42 + 52 + 62 + 72 + 92 ) − 52
V ar(X) = 4.5
Indicateurs 41

Plus σ est petit, plus les données sont regroupées autour de la moyenne
arithmétique et plus la population est homogène;

L’écart-type permet de trouver le pourcentage de la population appartenant à

un intervalle centré sur l’espérance mathématique.

La variance tient compte de toutes les données, c’est la meilleure

caractéristique de dispersion (nombreuses applications en statistique).
Indicateurs 42

Etendue:
Est la quantité :
E = xmax − xmin

L’étendue est facile à calculer.

Elle ne tient compte que des valeurs extrêmes de la série; elle ne dépend ni du
nombre, ni des valeurs intermédiaires.
Séries statistiques à deux dimensions 43

On s’intéresse à deux variables X et Y . Ces deux variables sont mesurées sur

les n unités d’observation. Pour chaque unité, on obtient donc deux mesures.
La série statistique est alors une suite de n couples des valeurs prises par les
deux variables sur chaque individu :
(x1 , y1 ),..., (xi , yi ),..., (xn , yn ).

Chacune des deux variables peut être, soit quantitative, soit qualitative. On
examine deux cas.

• Les deux variables sont quantitatives.

• Les deux variables sont qualitatives.
Séries statistiques à deux dimensions 44
Variables quantitatives: On dispose d’une série de n observations, des deux
variables X et Y , représentées par un nuage de points dans lequel un point Mi
à pour coordonnées (xi , yi ).
Les nuages de points associés à des séries statistiques peuvent présenter
plusieurs formes:
le nuage présente un caractère linéaire, une allure d’une courbe qui n’est pas
une droite ou n’a pas de structure particulière. Les variables X et Y peuvent
être analysées séparément. On peut calculer tous les paramètres dont les
moyennes et les variances:
n n
1X 2 1X 2
x̄ = xi ; et σx = (xi − x̄)
n i=1 n i=1
n n
1X 2 1X 2
ȳ = yi ; et σy = (yi − ȳ)
n i=1 n i=1
Ces paramètres sont appelés paramètres marginaux : variances marginales,
moyennes marginales, écarts-types marginaux, quantiles marginaux...
Séries statistiques à deux dimensions 45
On mesure le poids Y et la taille X de 20 individus.

yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187

Représenter le nuage de points puis calculer les moyennes marginales et les

écart-type marginaux.
Séries statistiques à deux dimensions 46

La covariance:
La covariance est définie:
n
1X
cov(x, y) = (xi − x̄) (yi − ȳ)
n i=1

• La covariance peut prendre des valeurs positives, négatives ou nulles.

• Quand xi = yi , pour tout i = 1, ..., n, la covariance est égale à la variance.
Remarque importante: (En exrecice) La covariance peut également s’écrire:
n
1X
cov(x, y) = xi yi − x̄ȳ
n i=1

Pour l’exemple précédent calculer la covariance entre les deux variables.

Séries statistiques à deux dimensions 47

La corrélation:
Le coefficient de corrélation est la covariance divisée par les deux écart-types
marginaux:
cov(x, y)
r(x, y) =
σx σy
Le coefficient de détermination est le carré du coefficient de corrélation:
2 cov(x, y)2
r (x, y) =
σx2 σy2
Pour l’exemple précédent calculer la corrélation entre les deux variables.
Séries statistiques à deux dimensions 48

1. Le coefficient de corrélation mesure la dépendance linéaire entre deux

variables
2. −1 ≤ r(x, y) ≤ 1
3. Si le coefficient de corrélation est positif, les points sont alignés le long
d’une droite croissante.
4. Si le coefficient de corrélation est négatif, les points sont alignés le long
d’une droite décroissante.
5. Si le coefficient de corrélation est nul ou proche de zéro, il n?’y a pas de
dépendance linéaire.
Ajustement linéaire 49

Préciser une liaison éventuelle entre deux variables statistiques pour lesquelles
on dispose d’une série d’observations jointes. Par exemples:
• La taille et le poids d’un groupe d’individus.
• Le salaire et le solde bancaire moyen des clients d’une banque.
• La consommation et le revenu d’un groupe d’individus.
On dispose d’une série de n observations, des deux variables X et Y ,
représentées par un nuage de points dans lequel un point i à pour coordonnées
(xi , yi ).
Les nuages de points associés à des séries statistiques peuvent présenter
plusieurs formes:
le nuage présente un caractère linéaire, une allure d’une courbe qui n’est pas
une droite ou n’a pas de structure particulière.
Ajustement linéaire 50

Il existe plusieurs méthodes pour représenter la droite d’ajustement, on citera:

• La méthode à la régle;
• La méthode de Mayer: qui consiste à diviser le nuage en deux sous nuages,
calculer le point moyen de chaque sous nuage et puis tracer la droite qui
passe par les deux points moyen.
• La méthode des moindres carrés ordinaires (expliquée ci-dessous).
Ajustement linéaire 51

Le modèle:
Soit Y une variable quantitative, qu’on veut expliquer par une autre variable
quantitative X.
Y est appelée la variable à expliquer.
X est appelée la variable explicative.
L’ajustement linéaire est la recherche de la meilleur droite résumant les
observations: on cherche une relation linéaire

yi = β0 + β1 xi + ei , 1 ≤ i ≤ n

où β0 et β1 sont des paramètres inconnus, et les ei sont les résidus.

βˆ0 et βˆ1 sont les paramètres estimés de β0 et β1 .
ŷi = βˆ0 + βˆ1 xi est la valeur ajustée de la variable explicative associée à la
valeur xi .
ŷ = βˆ0 + βˆ1 x est appelée la droite de régression de y en x.
êi = yi − ŷi sont les résidus estimés.
Ajustement linéaire 52

cov(x, y)
βˆ1 =
V ar(x)
βˆ0 = y − βˆ1 x

1. La droite de régression passe par le point moyen (x, y).

2. Le résidu estimé, êi = yi − ŷi , est l’écart entre la valeur observée de y est la
valeur ajustée.
3. la droite de régression de x en y est : x = λ + µy avec λ et µ sont données
par:
cov(x, y)
µ̂ =
V ar(y)
λ̂ = x − µ̂y

La droite de régression de x en y passe aussi par le point moyen.

Ajustement linéaire 53

Critère de qualité de la régression:

Le carré du coefficient de corrélation de x et y est noté R2 :

R2 = r2 (x, y).

On peut vérifier que:

V ar(ŷ) V ar(ê)
R2 = =1− .
V ar(y) V ar(y)
R2 est la proportion de variance expliquée par la régression.
De plus 0 ≤ R2 ≤ 1.
• Si R2 = 1, les points (xi , yi ) sont alignées.
• Si R2 = 0, y ne dépend pas linéairement de x. x et y sont non corrélées
(r(x, y) = 0).
Ajustement linéaire 54

Pour l’exemple précédent:

• Donner une droite d’ajustement en utilisant la méthode à la régle.
• Donner une droite d’ajustement en utilisant la méthode de Mayer.
• Donner une droite d’ajustement en utilisant la méthode MCO et tracer la.
• Conclure
Séries statistiques à deux dimensions 55

Variables qualitatives:

Si les deux variables X et Y sont qualitatives, alors les données observées sont
une suite de couples de variables
(x1 , y1 ),..., (xi , yi ),..., (xn , yn ),
chacune des deux variables prend comme valeurs des modalités qualitatives.
Les valeurs distinctes de X et Y sont notées respectivement

x1 , ..., xj , ..., xJ

et
y1 , ..., yk , ..., yK .
Séries statistiques à deux dimensions 56

Le Tableau de contingence

Les données observées peuvent être regroupées sous la forme d’un tableau de
contingence:

y1 ... yk ... yK Total

x1 n11 ... n1k ... n1K n1.
.. .. ..
. . .
xj nj1 ... njk ... njK nj.
.. .. ..
. . .
xJ nJ1 ... nJk ... nJK nJ.
Total n.1 ... n.k ... n.K n
Séries statistiques à deux dimensions 57

Les nj. : et n.k sont appelés les effectifs marginaux. Dans ce tableau,
• nj. : représente le nombre de fois que la modalité xj apparaı̂t,
• n.k : représente le nombre de fois que la modalité yk apparaı̂t,
• njk : représente le nombre de fois que les modalités xj et yk apparaissent,
ensemble. On a les relations
J
X
njk = n.k , ∀k = 1, ...K
j=1

K
X
njk = nj. , ∀j = 1, ...J
k=1
K
X J
X J X
X K
n= n.k = nj. = njk
k=1 j=1 j=1 k=1
Séries statistiques à deux dimensions 58

Exemple:
On s’intéresse à une éventuelle relation entre le sexe de 200 personnes et la
couleur des yeux. Le Tableau ci-dessous reprend le tableau de contingence.

Bleu Vert Marron Total

Homme 10 50 20 80
Femme 20 60 40 120
Total 30 110 60 200
Séries statistiques à deux dimensions 59

Tableau des fréquences:

Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille de
l’échantillon :
n.k nj. njk
f.k = , fj. = , fjk =
n n n
Le tableau des fréquences est:

y1 ... yk ... yK Total

x1 f11 ... f1k ... f1K f1.
.. .. ..
. . .
xj fj1 ... fjk ... fjK fj.
.. .. ..
. . .
xJ fJ1 ... fJk ... fJK fJ.
Total f.1 ... f.k ... f.K 1
Séries statistiques à deux dimensions 60

Bleu Vert Marron Total

Homme 0.05 0.25 0.10 0.40
Femme 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1.00
Séries statistiques à deux dimensions 61

Profils lignes et profils colonnes

Un tableau de contingence s’interprète toujours en comparant des fréquences
en lignes ou des fréquences en colonnes (appelés aussi profils lignes et profils
colonnes).
Les profils lignes sont définis par:
njk fjk
fkj = = , ∀k = 1, ...; K et j = 1, ...J
nj. fj.
njk fjk
fjk = = , ∀k = 1, ...; K et j = 1, ...J
n.k f.k
Séries statistiques à deux dimensions 62

Tableau des profils lignes:

Bleu Vert Marron Total

Homme 0.13 0.63 0.25 1.00
Femme 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30 1.00
Tableau des profils colonnes

Bleu Vert Marron Total

Homme 0.33 0.45 0.33 0.40
Femme 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.00 1.00
Séries statistiques à deux dimensions 63
Effectifs théoriques et khi-deux

On cherche souvent une interaction entre des lignes et des colonnes, un lien
entre les variables. Pour mettre en évidence ce lien, on construit un tableau
d’effectifs théoriques qui représente la situation où les variables ne sont pas liées
(indépendance). Ces effectifs théoriques sont construits de la manière suivante:
nj. .n.k
n∗jk =
n
Les effectifs observés njk ont les mêmes marges que les effectifs théoriques n∗jk .
Enfin, les écarts à l’indépendance sont définis par

ejk = njk − n∗jk

La dépendance du tableau se mesure au moyen du khi-deux défini par:

J XK
X e2jk
χ2obs = ∗
j=1
n jk
k=1
Séries statistiques à deux dimensions 64

Le V de Cramer est définit par:

s
χ2obs
V =
n.min(J − 1, K − 1)

Le V de Cramer est compris entre 0 et 1. Il ne dépend ni de la taille de

l’échantillon ni de la taille du tableau. Si V est proche de 0, les deux variables
sont indépendantes. Si V = 1, il existe une relation fonctionnelle entre les
variables.
Séries statistiques à deux dimensions 65

Le Tableau des effectifs théoriques:

Bleu Vert Marron Total

Homme 12 44 24 80
Femme 18 66 36 120
Total 30 110 60 200
Le Tableau des écarts à l’indépendance:

Bleu Vert Marron Total

Homme -2 6 -4 0
Femme 2 -6 4 0
Total 0 0 0 0
Séries statistiques à deux dimensions 66

e2jk
Le Tableau des n∗ :
jk

Bleu Vert Marron Total

Homme 0.33 0.82 0.67 1.82
Femme 0.22 0.55 0.44 1.21
Total 0.56 1.36 1.11 3.03

• Le Khi-deux observé: χ2obs = 3.03

• Comme le tableau a deux lignes min(J − 1, K − 1) = min(2 − 1, 3 − 1) = 1.
• On a V = 0.123. La dépendance entre les deux variables est très faible.

Vous aimerez peut-être aussi

Chap 3 Statistique Desc
Pas encore d'évaluation
Chap 3 Statistique Desc
126 pages
GAB S2 Statistique
Pas encore d'évaluation
GAB S2 Statistique
140 pages
Statistiques Descriptives à une Dimension
Pas encore d'évaluation
Statistiques Descriptives à une Dimension
12 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
21 pages
Statistiques Descriptives en Génie Industriel
Pas encore d'évaluation
Statistiques Descriptives en Génie Industriel
81 pages
Cours Stat Univariée
Pas encore d'évaluation
Cours Stat Univariée
71 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
21 pages
Statistiques Descriptives Cours s1 Prof
100% (3)
Statistiques Descriptives Cours s1 Prof
157 pages
Statistique Descriptive et Probabilités
Pas encore d'évaluation
Statistique Descriptive et Probabilités
49 pages
Statistiques et Probabilités BCG S2
Pas encore d'évaluation
Statistiques et Probabilités BCG S2
47 pages
Cours de Statistiques Descriptives 2020
Pas encore d'évaluation
Cours de Statistiques Descriptives 2020
45 pages
Statistiques Descriptives Univariées
100% (1)
Statistiques Descriptives Univariées
36 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
22 pages
Statistique descriptive : concepts clés
Pas encore d'évaluation
Statistique descriptive : concepts clés
16 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
42 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
14 pages
Chap 1 Introduction Et Vocabulaire de Base PDF
Pas encore d'évaluation
Chap 1 Introduction Et Vocabulaire de Base PDF
39 pages
StatDescriptive ENSAM2223
Pas encore d'évaluation
StatDescriptive ENSAM2223
23 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
59 pages
Symboles et Notations en Statistique
Pas encore d'évaluation
Symboles et Notations en Statistique
11 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
43 pages
Statistique Descriptive: U C A É E
Pas encore d'évaluation
Statistique Descriptive: U C A É E
85 pages
Vocabulaire de la statistique descriptive
Pas encore d'évaluation
Vocabulaire de la statistique descriptive
38 pages
Cours de Statistiques Descriptives L1
100% (1)
Cours de Statistiques Descriptives L1
52 pages
Cours de Statistique Descriptive I
Pas encore d'évaluation
Cours de Statistique Descriptive I
31 pages
Chapitre 1 Statistiques Descriptives
Pas encore d'évaluation
Chapitre 1 Statistiques Descriptives
16 pages
Statistique S
Pas encore d'évaluation
Statistique S
73 pages
Statistique descriptive unidimensionnelle
Pas encore d'évaluation
Statistique descriptive unidimensionnelle
24 pages
Statistique Descriptive et Probabilités
Pas encore d'évaluation
Statistique Descriptive et Probabilités
84 pages
Chapitre 1 Statistique
Pas encore d'évaluation
Chapitre 1 Statistique
41 pages
Cours Statistique Descriptive 2022 2023
100% (6)
Cours Statistique Descriptive 2022 2023
69 pages
Statistiques et Probabilités en Informatique
Pas encore d'évaluation
Statistiques et Probabilités en Informatique
168 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
46 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
65 pages
Book Proba
Pas encore d'évaluation
Book Proba
79 pages
PolycopeCours Stat-Proba SMIAS3 FSJ UCD 2021-2022
Pas encore d'évaluation
PolycopeCours Stat-Proba SMIAS3 FSJ UCD 2021-2022
94 pages
Cours Stat Descriptive
Pas encore d'évaluation
Cours Stat Descriptive
53 pages
Cours - Statistique Descriptive - Pr. OUAHID - 2020-2021 - Group A & E
Pas encore d'évaluation
Cours - Statistique Descriptive - Pr. OUAHID - 2020-2021 - Group A & E
70 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
33 pages
Stat Desc1 FR 2020
Pas encore d'évaluation
Stat Desc1 FR 2020
41 pages
Stat Des - Chap1
Pas encore d'évaluation
Stat Des - Chap1
29 pages
Cours de Statistique Descriptive 2020-2021
Pas encore d'évaluation
Cours de Statistique Descriptive 2020-2021
23 pages
Chapitre 1 Analyse Descriptive
Pas encore d'évaluation
Chapitre 1 Analyse Descriptive
4 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
50 pages
Wa0020
Pas encore d'évaluation
Wa0020
35 pages
Statistique A Une Variable - Cours
Pas encore d'évaluation
Statistique A Une Variable - Cours
90 pages
Cours BIostatistique, Chap1
Pas encore d'évaluation
Cours BIostatistique, Chap1
8 pages
Statistiques descriptives : Vocabulaire et définitions
Pas encore d'évaluation
Statistiques descriptives : Vocabulaire et définitions
18 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
27 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
12 pages
Statistique descriptive : Cours et exercices
Pas encore d'évaluation
Statistique descriptive : Cours et exercices
20 pages
Outils et Méthodes de Statistique Descriptive
Pas encore d'évaluation
Outils et Méthodes de Statistique Descriptive
178 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
10 pages
Statistiques descriptives : vocabulaire et définitions
Pas encore d'évaluation
Statistiques descriptives : vocabulaire et définitions
18 pages
Statistique descriptive unidimensionnelle
Pas encore d'évaluation
Statistique descriptive unidimensionnelle
47 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
12 pages
Statistique
50% (2)
Statistique
4 pages
Statistiques - Descriptives Support
Pas encore d'évaluation
Statistiques - Descriptives Support
105 pages
Bayes
Pas encore d'évaluation
Bayes
3 pages
Mic 2
Pas encore d'évaluation
Mic 2
22 pages
Gestion Médiathèque en Java : Mini-Projet
Pas encore d'évaluation
Gestion Médiathèque en Java : Mini-Projet
3 pages
Introduction à la macroéconomie
Pas encore d'évaluation
Introduction à la macroéconomie
15 pages
Statistiques Non Paramétriques et Estimation
Pas encore d'évaluation
Statistiques Non Paramétriques et Estimation
75 pages
Mac 3
Pas encore d'évaluation
Mac 3
65 pages
Org 4 2
Pas encore d'évaluation
Org 4 2
41 pages
Équilibre économique : classiques et néoclassiques
Pas encore d'évaluation
Équilibre économique : classiques et néoclassiques
47 pages
Algorithmes de Matrices et Chaînes
Pas encore d'évaluation
Algorithmes de Matrices et Chaînes
7 pages
Régression Linéaire Simple et M.C.O.
Pas encore d'évaluation
Régression Linéaire Simple et M.C.O.
20 pages