0% ont trouvé ce document utile (0 vote)

72 vues46 pages

Cours Statistique

Le document présente les concepts fondamentaux de la statistique, y compris les définitions des variables, des données statistiques et des tableaux. Il décrit les différents types de variables, telles que qualitatives (nominales et ordinales) et quantitatives (discrètes et continues), ainsi que les méthodes de représentation graphique des données. Des exemples pratiques et des codes en langage R sont fournis pour illustrer la construction de tableaux statistiques et de diagrammes.

Transféré par

issraelkourd824

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

72 vues46 pages

Cours Statistique

Transféré par

issraelkourd824

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1

Variables, données
statistiques, tableaux,
eﬀectifs

1.1 Déﬁnitions fondamentales

1.1.1 La science statistique
– Méthode scientiﬁque du traitement des données quantitatives.
– Etymologiquement : science de l’état.
– La statistique s’applique à la plupart des disciplines : agronomie, biologie,
démographie, économie, sociologie, linguistique, psychologie, . . .

1.1.2 Mesure et variable

– On s’intéresse à des unités statistiques ou unités d’observation : par exemple
des individus, des entreprises, des ménages. En sciences humaines, on
s’intéresse dans la plupart des cas à un nombre fini d’unités.
– Sur ces unités, on mesure un caractère ou une variable, le chiffre d’affaires
de l’entreprise, le revenu du ménage, l’âge de la personne, la catégorie so-
cioprofessionnelle d’une personne. On suppose que la variable prend tou-
jours une seule valeur sur chaque unité. Les variables sont désignées par
simplicité par une lettre (X, Y, Z).
– Les valeurs possibles de la variable, sont appelées modalités.
– L’ensemble des valeurs possibles ou des modalités est appelé le domaine
de la variable.

1.1.3 Typologie des variables

– Variable qualitative : La variable est dite qualitative quand les modalités

1
10CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

sont des catégories.

– Variable qualitative nominale : La variable est dite qualitative nominale
quand les modalités ne peuvent pas être ordonnées.
– Variable qualitative ordinale : La variable est dite qualitative ordinale
quand les modalités peuvent être ordonnées. Le fait de pouvoir ou non
ordonner les modalités est parfois discutable. Par exemple : dans les
catégories socioprofessionnelles, on admet d’ordonner les modalités :
‘ouvriers’, ‘employés’, ‘cadres’. Si on ajoute les modalités ‘sans profes-
sion’, ‘enseignant’, ‘artisan’, l’ordre devient beaucoup plus discutable.
– Variable quantitative : Une variable est dite quantitative si toute ses va-
leurs possibles sont numériques.
– Variable quantitative discrète : Une variable est dite discrète, si l’en-
semble des valeurs possibles est dénombrable.
– Variable quantitative continue : Une variable est dite continue, si l’en-
semble des valeurs possibles est continu.

Remarque 1.1 Ces déﬁnitions sont à relativiser, l’âge est théoriquement

une variable quantitative continue, mais en pratique, l’âge est mesuré dans le
meilleur des cas au jour près. Toute mesure est limitée en précision !

Exemple 1.1 Les modalités de la variable sexe sont masculin (codé M) et

féminin (codé F). Le domaine de la variable est {M, F }.

Exemple 1.2 Les modalités de la variable nombre d’enfants par famille sont
0,1,2,3,4,5,. . .C’est une variable quantitative discrète.

1.1.4 Série statistique

On appelle série statistique la suite des valeurs prises par une variable X sur
les unités d’observation.
Le nombre d’unités d’observation est noté n.
Les valeurs de la variable X sont notées

x1 , . . . , xi , . . . , xn .

Exemple 1.3 On s’intéresse à la variable ‘état-civil’ notée X et à la série sta-

tistique des valeurs prises par X sur 20 personnes. La codiﬁcation est

C: célibataire,
M: marié(e),
V: veuf(ve),
D: divorcée.

2
1.2. VARIABLE QUALITATIVE NOMINALE 11

Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique

suivante :
M M D C C M C C C M
C M V M V D C C C M

Ici, n = 20,

x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.

1.2 Variable qualitative nominale

1.2.1 Effectifs, fréquences et tableau statistique
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent
pas être ordonnées. On note J le nombre de valeurs distinctes ou modalités.
Les valeurs distinctes sont notées x1 , . . . , xj , . . . , xJ . On appelle effectif d’une
modalité ou d’une valeur distincte, le nombre de fois que cette modalité (ou
valeur distincte) apparaı̂t. On note nj l’effectif de la modalité xj . La fréquence
d’une modalité est l’effectif divisé par le nombre d’unités d’observation.
nj
fj = , j = 1, . . . , J.
n
Exemple 1.4 Avec la série de l’exemple précédent, on obtient le tableau sta-

tistique :
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
n = 20 1

3
12CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

En langage R

>X=c(’Marié(e)’,’Marié(e)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Marié(e)’,’Céli
’Célibataire’,’Célibataire’,’Marié(e)’,’Célibataire’,’Marié(e)’,’Veuf(ve)’,’Mar
’Veuf(ve)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Célibataire’,’Marié(e)’)
> T1=table(X)
> V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))
Eff Freq
Célibataire 9 0.45
Divorcé(e) 2 0.10
Marié(e) 7 0.35
Veuf(ve) 2 0.10

1.2.2 Diagramme en secteurs et diagramme en barres

Le tableau statistique d’une variable qualitative nominale peut être représenté
par deux types de graphique. Les eﬀectifs sont représentés par un diagramme
en barres et les fréquences par un diagramme en secteurs (ou camembert ou
piechart en anglais) (voir Figures 1.1 et 1.2).

Célibataire

Divorcé(e)

Veuf(ve)

Marié(e)

Figure 1.1 – Diagramme en secteurs des fréquences

En langage R

> pie(T1,radius=1.0)

4
1.3. VARIABLE QUALITATIVE ORDINALE 13

10
8
6
4
2
0

Célibataire Divorcé(e) Marié(e) Veuf(ve)

Figure 1.2 – Diagramme en barres des eﬀectifs

En langage R
>m=max(V1)
>barplot(T1, ylim=c(0,m+1))

1.3 Variable qualitative ordinale

1.3.1 Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce
qu’on écrit
x1 ≺ x2 ≺ · · · ≺ xj−1 ≺ xj ≺ · · · ≺ xJ−1 ≺ xJ .
La notation x1 ≺ x2 se lit x1 précède x2 .
Si la variable est ordinale, on peut calculer les eﬀectifs cumulés :

∑
j
Nj = nk , j = 1, . . . , J.
k=1

On a N1 = n1 et NJ = n. On peut également calculer les fréquences cumulées

Nj ∑ j
Fj = = fk , j = 1, . . . , J.
n
k=1

Exemple 1.5 On interroge 50 personnes sur leur dernier diplôme obtenu (va-
riable Y ). La codiﬁcation a été faite selon le Tableau 1.1. On a obtenu la série

5
14CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

Table 1.1 – Codiﬁcation de la variable Y

Dernier diplôme obtenu xj

Sans diplôme Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U

Table 1.2 – Série statistique de la variable Y

Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U

Table 1.3 – Tableau statistique complet

xj nj Nj fj Fj
Sd 4 4 0.08 0.08
P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00
50 1.00

statistique présentée dans le tableau 1.2. Finalement, on obtient le tableau sta-

tistique complet présenté dans le Tableau 1.3.

En langage R

> YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P",
"Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se",
"Su","Su","Su","Su","Su","Su","Su","Su","Su",
"U","U","U","U","U","U","U","U","U","U","U","U")
YF=factor(YY,levels=c("Sd","P","Se","Su","U"))
T2=table(YF)
V2=c(T2)
> data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2)))
Eff EffCum Freq FreqCum
Sd 4 4 0.08 0.08

6
1.3. VARIABLE QUALITATIVE ORDINALE 15

P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00

1.3.2 Diagramme en secteurs

Les fréquences d’une variable qualitative ordinale sont représentées au moyen
d’un diagramme en secteurs (voir Figure 1.3).

Se
Sd

U
Su

Figure 1.3 – Diagramme en secteurs des fréquences

En langage R
> pie(T2,radius=1)

1.3.3 Diagramme en barres des eﬀectifs

Les eﬀectifs d’une variable qualitative ordinale sont représentés au moyen
d’un diagramme en barres (voir Figure 1.4).

En langage R
> barplot(T2)

7
16CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

14
12
10
8
6
4
2
0

Sd P Se Su U

Figure 1.4 – Diagramme en barres des eﬀectifs

1.3.4 Diagramme en barres des eﬀectifs cumulés

Les eﬀectifs cumulés d’une variable qualitative ordinale sont représentés au
moyen d’un diagramme en barres (voir Figure 1.5).
50
40
30
20
10
0

Sd P Se Su U

Figure 1.5 – Diagramme en barres des eﬀectifs cumulés

8
1.4. VARIABLE QUANTITATIVE DISCRÈTE 17

En langage R

> T3=cumsum(T2)
> barplot(T3)

1.4 Variable quantitative discrète

1.4.1 Le tableau statistique
Une variable discrète a un domaine dénombrable.

Exemple 1.6 Un quartier est composé de 50 ménages, et la variable Z représente

le nombre de personnes par ménage. Les valeurs de la variable sont

1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8

Comme pour les variables qualitatives ordinales, on peut calculer les eﬀectifs,
les eﬀectifs cumulés, les fréquences, les fréquences cumulées. À nouveau, on peut
construire le tableau statistique :

xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.0

En langage R

> Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,
+ 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
> T4=table(Z)
> T4c=c(T4)
> data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c)))
Eff EffCum Freq FreqCum

9
18CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00

1.4.2 Diagramme en bâtonnets des eﬀectifs

Quand la variable est discrète, les eﬀectifs sont représentés par des bâtonnets
(voir Figure 1.6).
15
10
5
0

1 2 3 4 5 6 8

Figure 1.6 – Diagramme en bâtonnets des eﬀectifs pour une variable quanti-
tative discrète

En langage R

> plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)

10
1.5. VARIABLE QUANTITATIVE CONTINUE 19

1.4.3 Fonction de répartition

Les fréquences cumulées sont représentées au moyen de la fonction de répartition.
Cette fonction, présentée en Figure 1.7,est déﬁnie de R dans [0, 1] et vaut :

 0 x < x1
F (x) = Fj xj ≤ x < xj+1

1 xJ ≤ x.
1.0
0.8
0.6
0.4
0.2
0.0

0 2 4 6 8

Figure 1.7 – Fonction de répartition d’une variable quantitative discrète

En langage R
> plot(ecdf(Z),xlab="",ylab="",main="",frame=0)

1.5 Variable quantitative continue

1.5.1 Le tableau statistique
Une variable quantitative continue peut prendre une inﬁnité de valeurs pos-
sibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique,
une mesure est limitée en précision. La taille peut être mesurée en centimètres,
voire en millimètres. On peut alors traiter les variables continues comme des
variables discrètes. Cependant, pour faire des représentations graphiques et

11
20CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

construire le tableau statistique, il faut procéder à des regroupements en classes.

Le tableau regroupé en classe est souvent appelé distribution groupée. Si [c− +
j ; cj [
designe la classe j, on note, de manière générale :

– c−
j la borne inférieure de la classe j,
– c+
j la borne supérieure de la classe j,
−
– cj = (c+j + cj )/2 le centre de la classe j,
−
– aj = c+j − cj l’amplitude de la classe j,
– nj l’eﬀectif de la classe j,
– Nj l’eﬀectif cumulé de la classe j,
– fj la fréquence de la classe j,
– Fj la fréquence cumulée de la classe j.

La répartition en classes des données nécessite de déﬁnir a priori le nombre

de classes J et donc l’amplitude de chaque classe. En règle générale, on choisit
au moins cinq classes de même amplitude. Cependant, il existent des formules
qui nous permettent d’établir le nombre de classes et l’intervalle de classe (l’am-
plitude) pour une série statistique de n observations.
– La règle de Sturge : J = 1√ + (3.3 log10 (n)).
– La règle de Yule : J = 2.5 4 n.

L’intervalle de classe est obtenue ensuite de la manière suivante : longueur

de l’intervalle = (xmax − xmin )/J, où xmax (resp. xmin ) désigne la plus grande
(resp. la plus petite) valeur observée.

Remarque 1.2 Il faut arrondir le nombre de classe J à l’entier le plus proche.

Par commodité, on peut aussi arrondir la valeur obtenue de l’intervalle de classe.

A partir de la plus petite valeur observée, on obtient les bornes de classes

en additionnant successivement l’intervalle de classe (l’amplitude).

Exemple 1.7 On mesure la taille en centimetres de 50 élèves d’une classe :

152 152 152 153 153

154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171

12
1.5. VARIABLE QUANTITATIVE CONTINUE 21

On a les classes de tailles déﬁnies préablement comme il suit :

[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[

On construit le tableau statistique.

[c− +
j , cj ] nj Nj fj Fj
[151, 5; 155, 5[ 10 10 0.20 0.20
[155, 5; 159, 5[ 12 22 0.24 0.44
[159, 5; 163, 5[ 11 33 0.22 0.66
[163, 5; 167, 5[ 7 40 0.14 0.80
[167, 5; 171, 5[ 10 50 0.20 1.00
50 1.00

En langage R

> S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,
+ 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, +
162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, +
170,171,171,171,171)
> T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
> T5c=c(T5)
> data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c)))
Eff EffCum Freq FreqCum
(151,155] 10 10 0.20 0.20 (155,159] 12 22 0.24 0.44
(159,163] 11 33 0.22 0.66 (163,167] 7 40 0.14 0.80
(167,171] 10 50 0.20 1.00

1.5.2 Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des
classes par des rectangles contigus dont la surface (et non la hauteur) représente
l’effectif (resp. la fréquence). Pour un histogramme des effectifs, la hauteur du
rectangle correspondant à la classe j est donc donnée par :
nj
hj =
aj

– On appelle hj la densité d’eﬀectif.

13
22CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

– L’aire de l’histogramme est égale à l’eﬀectif total n, puisque l’aire de

chaque rectangle est égale à l’eﬀectif de la classe j : aj × hj = nj .
Pour un histogramme des fréquences on a

fj
dj =
aj

– On appelle dj la densité de fréquence.

– L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle
est égale à la fréquence de la classe j : aj × dj = fj .
Figure 1.8 représente l’histogramme des fréquences de l’exemple précedent :
0.06
0.04
0.02
0.00

151.5 155.5 159.5 163.5 167.5 171.5

Figure 1.8 – Histogramme des fréquences

En langage R

> hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE,

xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

Si les deux dernières classes sont agrégées, comme dans la Figure 1.9, la
surface du dernier rectangle est égale à la surface des deux derniers rectangles
de l’histogramme de la Figure 1.8.

En langage R

> hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5),
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,171.5))

14
1.5. VARIABLE QUANTITATIVE CONTINUE 23

0.06
0.04
0.02
0.00

151.5 155.5 159.5 163.5 171.5

Figure 1.9 – Histogramme des fréquences avec les deux dernières classes
agrégées

Remarque 1.3 Dans le cas de classes de même amplitude certains auteurs

et logiciels représentent l’histogramme avec les eﬀectifs (resp. les fréquences)
reportés en ordonnée, l’aire de chaque rectangle étant proportionnelle à l’eﬀectif
(resp. la fréquence) de la classe.

1.5.3 La fonction de répartition

La fonction de répartition F (x) est une fonction de R dans [0, 1], qui est
déﬁnie par


 0 x < c−
1
−
Fj−1 + c+ −c− (x − cj ) c−
fj
F (x) = j ≤ x < c+
j

 j j
1 c+
J ≤ x

15
24CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

Figure 1.10 – Fonction de répartition d’une distribution groupée

0.0 0.2 0.4 0.6 0.8 1.0

151.5 155.5 159.5 163.5 167.5 171.5

16
Chapitre 2

Statistique descriptive
univariée

2.1 Paramètres de position

2.1.1 Le mode
Le mode est la valeur distincte correspondant à l’eﬀectif le plus élevé ; il est
noté xM .
Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le sui-
vant :
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
n = 20 1

le mode est C : célibataire.

Remarque 2.1
– Le mode peut être calculé pour tous les types de variable, quantitative et
qualitative.
– Le mode n’est pas nécessairement unique.
– Quand une variable continue est découpée en classes, on peut déﬁnir une
classe modale (classe correspondant à l’eﬀectif le plus élevé).

2.1.2 La moyenne
La moyenne ne peut être déﬁnie que sur une variable quantitative.

17
28 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

La moyenne est la somme des valeurs observées divisée par leur nombre, elle
est notée x̄ :
1∑
n
x1 + x2 + · · · + xi + · · · + xn
x̄ = = xi .
n n i=1

La moyenne peut être calculée à partir des valeurs distinctes et des eﬀectifs

1∑
J
x̄ = n j xj .
n j=1

Exemple 2.1 Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4.

La moyenne est
0+0+1+1+1+2+3+4 12
x̄ = = = 1.5.
8 8
On peut aussi faire les calculs avec les valeurs distinctes et les eﬀectifs. On
considère le tableau :
xj nj
0 2
1 3
2 1
3 1
4 1
8

2×0+3×1+1×2+1×3+1×4
x̄ =
8
3+2+3+4
=
8
= 1.5.

Remarque 2.2 La moyenne n’est pas nécessairement une valeur possible.

En langage R

E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb

18
2.1. PARAMÈTRES DE POSITION 29
∑
2.1.3 Remarques sur le signe de sommation
Déﬁnition 2.1
∑
n
xi = x1 + x2 + · · · + xn .
i=1

1. En statistique les xi sont souvent les valeurs observées.

∑ n ∑n
2. L’indice est muet : xi = xj .
i=1 j=1
∑
3. Quand il n’y a pas de confusion possible, on peut écrire i xi .

Exemple 2.2
∑
4
1. xi = x1 + x2 + x3 + x4 .
i=1

∑
5
2. xi2 = x32 + x42 + x52 .
i=3

∑
3
3. i = 1 + 2 + 3 = 6.
i=1
4. On peut utiliser plusieurs sommations emboı̂tées, mais il faut bien distin-
guer les indices :

∑
3 ∑
2
xij = x11 + x12 (i = 1)
i=1 j=1
+ x21 + x22 (i = 2)
+ x31 + x32 (i = 3)

5. On peut exclure une valeur de l’indice.

∑
5
xi = x1 + x2 + x4 + x5 .
i=1
i̸=3

Propriété 2.1

1. Somme d’une constante

∑
n
a = a + a + · · · + a = na (a constante).
| {z }
i=1
n fois

19
30 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple
∑
5
3 = 3 + 3 + 3 + 3 + 3 = 5 × 3 = 15.
i=1

2. Mise en évidence

∑
n ∑
n
axi = a xi (a constante).
i=1 i=1

Exemple
∑
3
2 × i = 2(1 + 2 + 3) = 2 × 6 = 12.
i=1

3. Somme des n premiers entiers

∑
n
n(n + 1)
i = 1 + 2 + 3 + ··· + n = .
i=1
2

4. Distribution
∑
n ∑
n ∑
n
(xi + yi ) = xi + yi .
i=1 i=1 i=1

5. Distribution
∑
n ∑
n ∑
n
(xi − yi ) = xi − yi .
i=1 i=1 i=1

1∑
n
Exemple (avec x̄ = xi )
n i=1

∑
n ∑
n ∑
n
1∑
n
(xi − x̄) = xi − x̄ = n xi − nx̄ = nx̄ − nx̄ = 0.
i=1 i=1 i=1
n i=1

6. Somme de carrés

∑
n ∑
n ∑
n ∑
n ∑
n
(xi − yi )2 = (x2i − 2xi yi + yi2 ) = x2i − 2 xi y i + yi2 .
i=1 i=1 i=1 i=1 i=1

C’est une application de la formule

(a − b)2 = a2 − 2ab + b2 .

20
2.1. PARAMÈTRES DE POSITION 31

2.1.4 Moyenne géométrique

Si xi ≥ 0, on appelle moyenne géométrique la quantité
( n )1/n
∏ 1/n
G= xi = (x1 × x2 × · · · × xn ) .
i=1

On peut écrire la moyenne géométrique comme l’exponentielle de la moyenne

arithmétique des logarithmes des valeurs observées
( n )1/n
∏ 1 ∏n
1∑
n
G = exp log G = exp log xi = exp log xi = exp log xi .
i=1
n i=1
n i=1

La moyenne géométrique s’utilise, par exemple, quand on veut calculer la moyenne

de taux d’intérêt.

Exemple 2.3 Supposons que les taux d’intérêt pour 4 années consécutives
soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir après 4 ans si je
place 100 francs ?
– Après 1 an on a, 100 × 1.05 = 105 Fr.
– Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr.
– Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr.
– Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr.
Si on calcule la moyenne arithmétique des taux on obtient
1.05 + 1.10 + 1.15 + 1.10
x̄ = = 1.10.
4
Si on calcule la moyenne géométrique des taux, on obtient
1/4
G = (1.05 × 1.10 × 1.15 × 1.10) = 1.099431377.
Le bon taux moyen est bien G et non x̄, car si on applique 4 fois le taux moyen
G aux 100 francs, on obtient
100 Fr × G4 = 100 × 1.0994313774 = 146.1075 Fr.

2.1.5 Moyenne harmonique

Si xi ≥ 0, on appelle moyenne harmonique la quantité
n
H = ∑n .
i=1 1/xi

Il est judicieux d’appliquer la moyenne harmonique sur des vitesses.

Exemple 2.4 Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives

pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a été sa
vitesse moyenne ?

21
32 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

– Un raisonnement simple nous dit qu’il a parcouru la première étape en

10h, la deuxième en 3h20 la troisième en 2h30 et la quatrième en 5h. Il a
donc parcouru le total des 400km en

10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,

sa vitesse moyenne est donc

400
Moy = = 19.2 km/h.
20.8333
– Si on calcule la moyenne arithmétique des vitesses, on obtient
10 + 30 + 40 + 20
x̄ = = 25 km/h.
4
– Si on calcule la moyenne harmonique des vitesses, on obtient
4
H= 1 1 1 1 = 19.2 km/h.
10 + 30 + 40 + 20

La moyenne harmonique est donc la manière appropriée de calculer la

vitesse moyenne.

Remarque 2.3 Il est possible de montrer que la moyenne harmonique est tou-
jours inférieure ou égale à la moyenne géométrique qui est toujours inférieure
ou égale à la moyenne arithmétique

H ≤ G ≤ x̄.

2.1.6 Moyenne pondérée

Dans certains cas, on n’accorde pas le même poids à toutes les observations.
Par exemple, si on calcule la moyenne des notes pour un programme d’étude, on
peut pondérer les notes de l’étudiant par le nombre de crédits ou par le nombre
d’heures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associés à chaque
observation, alors la moyenne pondérée par wi est déﬁnie par :
∑n
w i xi
x̄w = ∑i=1
n .
i=1 wi

Exemple 2.5 Supposons que les notes soient pondérées par le nombre de
crédits, et que les notes de l’étudiant soient les suivantes :

22
2.1. PARAMÈTRES DE POSITION 33

Note 5 4 3 6 5
Crédits 6 3 4 3 4

La moyenne pondérée des notes par les crédits est alors

6×5+3×4+4×3+3×6+4×5 30 + 12 + 12 + 18 + 20 92
x̄w = = = = 4.6.
6+3+4+3+4 20 20

2.1.7 La médiane
La médiane, notée x1/2 , est une valeur centrale de la série statistique obtenue
de la manière suivante :
– On trie la série statistique par ordre croissant des valeurs observées. Avec
la série observée :
3 2 1 0 0 1 2,
on obtient :
0 0 1 1 2 2 3.
– La médiane x1/2 est la valeur qui se trouve au milieu de la série ordonnée :

0 0 1 1 2 2 3.
↑

On note alors x1/2 = 1.

Nous allons examiner une manière simple de calculer la médiane. Deux cas
doivent être distingués.
– Si n est impair, il n’y a pas de problème (ici avec n = 7), alors x1/2 = 1 :

0 0 1 1 2 2 3.
↑

La Figure 2.1 montre la fonction de répartition de la série. La médiane

peut être déﬁnie comme l’inverse de la fonction de répartition pour la
valeur 1/2 :
x1/2 = F −1 (0.5).

En langage R
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1,0.50,1,0,length=0.14,col="blue")

23
34 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 2.1 – Médiane quand n est impair

1.00
0.50
0.00

−1 0 1 2 3 4

– Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8)

0 0 1 1 2 2 3 4
↑ ↑

La médiane est alors la moyenne de ces deux valeurs :

1+2
x1/2 = = 1.5.
2
La Figure 2.2 montre la fonction de répartition de la série de taille paire.
La médiane peut toujours être déﬁnie comme l’inverse de la fonction de
répartition pour la valeur 1/2 :

x1/2 = F −1 (0.5).

Cependant, la fonction de répartition est discontinue par ‘palier’. L’inverse

de la répartition correspond exactement à un ‘palier’.

Figure 2.2 – Médiane quand n est pair

1.00
0.50
0.00

−1 0 1 2 3 4 5

En langage R

24
2.1. PARAMÈTRES DE POSITION 35

x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")

En général on note
x(1) , . . . , x(i) , . . . , x(n)
la série ordonnée par ordre croissant. On appelle cette série ordonnée la statis-
tique d’ordre. Cette notation, très usuelle en statistique, permet de déﬁnir la
médiane de manière très synthétique.
– Si n est impair
x1/2 = x( n+1 )
2

– Si n est pair
1{ }
x1/2 = x( n ) + x( n +1) .
2 2 2

Remarque 2.4 La médiane peut être calculée sur des variables quantitatives
et sur des variables qualitatives ordinales.

2.1.8 Quantiles
La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane.
Formellement un quantile est donné par l’inverse de la fonction de répartition :

xp = F −1 (p).

Si la fonction de répartition était continue et strictement croissante, la déﬁnition

du quantile serait sans équivoque. La fonction de répartition est cependant dis-
continue et “par palier”. Quand la fonction de répartition est par palier, il existe
au moins 9 manières différentes de définir les quantiles selon que l’on fasse ou
non une interpolation de la fonction de répartition. Nous présentons une de ces
méthodes, mais il ne faut pas s’étonner de voir les valeurs des quantiles différer
légèrement d’un logiciel statistique à l’autre.
– Si np est un nombre entier, alors
1{ }
xp = x(np) + x(np+1) .
2
– Si np n’est pas un nombre entier, alors

xp = x(⌈np⌉) ,

où ⌈np⌉ représente le plus petit nombre entier supérieur ou égal à np.

25
36 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Remarque 2.5
– La médiane est le quantile d’ordre p = 1/2.
– On utilise souvent
x1/4 le premier quartile,
x3/4 le troisième quartile,
x1/10 le premier décile ,
x1/5 le premier quintile,
x4/5 le quatrième quintile,
x9/10 le neuvième décile,
x0.05 le cinquième percentile ,
x0.95 le nonante-cinquième percentile.
– Si F (x) est la fonction de répartition, alors F (xp ) ≥ p.

Exemple 2.6 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,
34 contenant 12 observations (n = 12).
– Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre entier, on
a
x(3) + x(4) 15 + 16
x1/4 = = = 15.5.
2 2
– La médiane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a

1{ }
x1/2 = x(6) + x(7) = (19 + 22)/2 = 20.5.
2
– Le troisième quartile : Comme np = 0.75 × 12 = 9 est un nombre entier,
on a
x(9) + x(10) 25 + 27
x3/4 = = = 26.
2 2

En langage R

x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)

Exemple 2.7 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
contenant 10 observations (n = 10).
– Le premier quartile : Comme np = 0.25 × 10 = 2.5 n’est pas un nombre
entier, on a
x1/4 = x(⌈2.5⌉) = x(3) = 15.

26
2.2. PARAMÈTRES DE DISPERSION 37

– La médiane : Comme np = 0.5 × 10 = 5 est un nombre entier, on a

1{ }
x1/2 = x(5) + x(6) = (18 + 19)/2 = 18.5.
2
– Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un nombre
entier, on a
x3/4 = x(⌈7.5⌉) = x(8) = 24.

En langage R

x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)

2.2 Paramètres de dispersion

2.2.1 L’étendue
L’étendue est simplement la diﬀérence entre la plus grande et la plus petite
valeur observée.
E = x(n) − x(1) .

2.2.2 La distance interquartile

La distance interquartile est la diﬀérence entre le troisième et le premier
quartile :
IQ = x3/4 − x1/4 .

2.2.3 La variance
La variance est la somme des carrés des écarts à la moyenne divisée par le
nombre d’observations :
1∑
n
s2x = (xi − x̄)2 .
n i=1

Théorème 2.1 La variance peut aussi s’écrire

1∑ 2
n
s2x = x − x̄2 . (2.1)
n i=1 i

27
38 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Démonstration
1∑ 1∑ 2
n n
s2x = (xi − x̄)2 = (x − 2xi x̄ + x̄2 )
n i=1 n i=1 i
1∑ 2 1∑ 1∑ 2 1∑ 2 1∑
n n n n n
= xi − 2 xi x̄ + x̄ = xi − 2x̄ xi + x̄2
n i=1 n i=1 n i=1 n i=1 n i=1
1∑ 2 1∑ 2
n n
= xi − 2x̄x̄ + x̄2 = x − x̄2 .
n i=1 n i=1 i

2
La variance peut également être déﬁnie à partir des eﬀectifs et des valeurs
distinctes :
1∑
J
s2x = nj (xj − x̄)2 .
n j=1

La variance peut aussi s’écrire

1∑
J
s2x = nj x2j − x̄2 .
n j=1

Quand on veut estimer une variance d’une variable X à partir d’un échantillon
(une partie de la population sélectionnée au hasard) de taille n, on utilise la va-
riance “corrigée” divisée par n − 1.

1 ∑
n
n
Sx2 = (xi − x̄)2 = s2x .
n − 1 i=1 n−1

La plupart des logiciels statistiques calculent Sx2 et non s2x .

2.2.4 L’écart-type
L’écart-type est la racine carrée de la variance :
√
sx = s2x .

Quand on veut estimer l’écart-type d’une variable X partir d’un échantillon

de taille n, utilise la variance “corrigée” pour déﬁnir l’écart type
√
√ n
2
Sx = Sx = sx .
n−1
La plupart des logiciels statistiques calculent Sx et non sx .

Exemple 2.8 Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a

2+3+4+4+5+6+7+9
x̄ = = 5,
8

28
2.2. PARAMÈTRES DE DISPERSION 39

1∑
n
s2x = (xi − x̄)2
n i=1
1[ ]
= (2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
8
1
= [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
=
8
= 4.5.

On peut également utiliser la formule (2.1) de la variance, ce qui nécessite moins

de calcul (surtout quand la moyenne n’est pas un nombre entier).

1∑ 2
n
s2x = x − x̄2
n i=1 i
1 2
= (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52
8
1
= (4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25
8
236
= − 25
8
= 29.5 − 25 = 4.5.

En langage R
> x=c(2,3,4,4,5,6,7,9)
> n=length(x)
> s2=sum((x-mean(x))^2)/n
> s2
[1] 4.5
> S2=s2*n/(n-1)
> S2
[1] 5.142857
> S2=var(x)
> S2
[1] 5.142857
> s=sqrt(s2)
> s
[1] 2.121320
> S=sqrt(S2)
> S
[1] 2.267787
> S=sd(x)

29
40 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

> S
[1] 2.267787
> E=max(x)-min(x)
> E
[1] 7

2.2.5 L’écart moyen absolu

L’écart moyen absolu est la somme des valeurs absolues des écarts à la
moyenne divisée par le nombre d’observations :

1∑
n
emoy = |xi − x̄| .
n i=1

2.2.6 L’écart médian absolu

L’écart médian absolu est la somme des valeurs absolues des écarts à la
médiane divisée par le nombre d’observations :

1∑
n
emed = xi − x1/2 .
n i=1

2.3 Moments
Déﬁnition 2.2 On appelle moment à l’origine d’ordre r ∈ N le paramètre

1∑ r
n
m′r = x .
n i=1 i

Déﬁnition 2.3 On appelle moment centré d’ordre r ∈ N le paramètre

1∑
n
mr = (xi − x̄)r .
n i=1

Les moments généralisent la plupart des paramètres. On a en particulier

– m′1 = x̄,
– m1 = 0,
1∑ 2
– m′2 = x = s2x + x̄2 ,
n i i
– m2 = s2x .
Nous verrons plus loin que des moments d’ordres supérieurs (r=3,4) sont utilisés
pour mesurer la symétrie et l’aplatissement.

30
2.4. PARAMÈTRES DE FORME 41

2.4 Paramètres de forme

2.4.1 Coeﬃcient d’asymétrie de Fisher (skewness)
Le moment centré d’ordre trois est déﬁni par

1∑
n
m3 = (xi − x̄)3 .
n i=1

Il peut prendre des valeurs positives, négatives ou nulles. L’asymétrie se mesure

au moyen du coeﬃcient d’asymétrie de Fisher
m3
g1 = ,
s3x

où s3x est le cube de l’écart-type.

2.4.2 Coeﬃcient d’asymétrie de Yule

Le coeﬃcient d’asymétrie de Yule est basé sur les positions des 3 quartiles
(1er quartile, médiane et troisième quartile), et est normalisé par la distance
interquartile :
x3/4 + x1/4 − 2x1/2
AY = .
x3/4 − x1/4

2.4.3 Coeﬃcient d’asymétrie de Pearson

Le coeﬃcient d’asymétrie de Pearson est basé sur une comparaison de la
moyenne et du mode, et est standardisé par l’écart-type :
x̄ − xM
AP = .
sx

Tous les coeﬃcients d’asymétrie ont les mêmes propriétés, ils sont nuls si la
distribution est symétrique, négatifs si la distribution est allongée à gauche (left
asymmetry), et positifs si la distribution est allongée à droite (right asymmetry)
comme montré dans la Figure 2.3.

Figure 2.3 – Asymétrie d’une distribution

31
42 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Remarque 2.6 Certaines variables sont toujours très asymétriques à droite,

comme les revenus, les tailles des entreprises, ou des communes. Une méthode
simple pour rendre une variable symétrique consiste alors à prendre le loga-
rithme de cette variable.

2.5 Paramètre d’aplatissement (kurtosis)

L’aplatissement est mesuré par le coeﬃcient d’aplatissement de Pearson
m4
β2 = ,
s4x
ou le coeﬃcient d’aplatissement de Fisher
m4
g2 = β2 − 3 = − 3,
s4x

où m4 est le moment centré d’ordre 4, et s4x est le carré de la variance.

– Une courbe mésokurtique si g2 ≈ 0.
– Une courbe leptokurtique si g2 > 0. Elle est plus pointue et possède des
queues plus longues.
– Une courbe platykurtique si g2 < 0. Elle est plus arrondie et possède des
queues plus courtes.
Dans la Figure 2.4, on présente un exemple de deux distributions de même
moyenne et de même variance. La distribution plus pointue est leptokurtique,
l’autre est mésokurtique. La distribution leptokurtique a une queue plus épaisse.
0.0175
0.6
0.015
0.5
0.0125
0.4
0.01
0.3
0.0075
0.2 0.005
0.1 0.0025

-4 -2 2 4 2.6 2.8 3.2 3.4 3.6 3.8 4

Figure 2.4 – Distributions mésokurtique et leptokurtique

2.6 Changement d’origine et d’unité

Déﬁnition 2.4 On appelle changement d’origine l’opération consistant à ajou-
ter (ou soustraire) la même quantité a ∈ R à toutes les observations

yi = a + xi , i = 1, . . . , n

32
2.6. CHANGEMENT D’ORIGINE ET D’UNITÉ 43

Déﬁnition 2.5 On appelle changement d’unité l’opération consistant à multi-

plier (ou diviser) par la même quantité b ∈ R toutes les observations

yi = bxi , i = 1, . . . , n.

Déﬁnition 2.6 On appelle changement d’origine et d’unité l’opération consis-

tant à multiplier toutes les observations par la même quantité b ∈ R puis à
ajouter la même quantité a ∈ R à toutes les observations :

yi = a + bxi , i = 1, . . . , n.

Théorème 2.2 Si on eﬀectue un changement d’origine et d’unité sur une va-

riable X, alors sa moyenne est aﬀectée du même changement d’origine et d’unité.

Démonstration Si yi = a + bxi , alors

1∑ 1∑
n n
ȳ = (a + bxi ) = a + b xi = a + bx̄.
n i=1 n i=1

Théorème 2.3 Si on eﬀectue un changement d’origine et d’unité sur une va-

riable X, alors sa variance est aﬀectée par le carré du changement d’unité et
pas par le changement d’origine.

Démonstration Si yi = a + bxi , alors

1∑ 1∑ 1∑
n n n
2 2
s2y = (yi − ȳ)2 = (a + bxi − a − bx̄) = b2 (xi − x̄) = b2 s2x .
n i=1 n i=1 n i=1

Remarque 2.7
1. Les paramètres de position sont tous affectés par un changement d’origine
et d’unité.
2. Les paramètres de dispersion sont tous affectés par un changement d’unité
mais pas par un changement d’origine.
3. Les paramètres de forme et d’aplatissement ne sont affectés ni par un
changement d’unité ni par un changement d’origine.

33
2.9. LA BOÎTE À MOUSTACHES 49

Exercices
Exercice 2.1 On pèse les 50 élèves d’une classe et nous obtenons les résultats
résumés dans le tableau suivant :
43 43 43 47 48
48 48 48 49 49
49 50 50 51 51
52 53 53 53 54
54 56 56 56 57
59 59 59 62 62
63 63 65 65 67
67 68 70 70 70
72 72 73 77 77
81 83 86 92 93

1. De quel type est la variable poids ?

2. Construisez le tableau statistique en adoptant les classes suivantes :
[40 ;45] ]45 ;50] ]50 ;55] ]55 ;60] ]60 ;65] ]65 ;70] ]70 ;80] ]80 ;100]
3. Construisez l’histogramme des eﬀectifs ainsi que la fonction de répartition.

Solution

1. La variable poids est de type quantitative continue.

2.
[c− +
j , cj ] nj Nj fj Fj
[40; 45] 3 3 0.06 0.06
]45; 50] 10 13 0.20 0.26
]50; 55] 8 21 0.16 0.42
]55; 60] 7 28 0.14 0.56
]60; 65] 6 34 0.12 0.68
]65; 70] 6 40 0.12 0.80
]70; 80] 5 45 0.10 0.90
]80; 100] 5 50 0.10 1.00
50 1
3.

Exercice 2.2 Calculez tous les paramètres (de position, de dispersion et de

forme) à partir du tableau de l’exemple 1.7 sans prendre en compte les classes.

Solution

34
50 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

– Médiane : Comme n est pair,

1 1
x1/2 = (x25 + x26 ) = (160 + 160) = 160.
2 2
– quantiles
– Premier quartile :
x1/4 = x13 = 156
– Deuxième quartile :
x3/4 = x38 = 165

– Étendue :
E = 171 − 152 = 19.
– Distance interquartile :

IQ = x3/4 − x1/4 = 165 − 156 = 9

– Variance :
1∑
n
1
s2x = (xi − x̄)2 = × 1668 = 33, 36.
n i=1 50

– Écart type : √
sx = s2x = 5, 7758.
– Écart moyen absolu :

1∑
n
1
emoy = |xi − x̄| = × 245, 2 = 4, 904.
n i=1 50

– Écart médian absolu :

1∑
n
1
emed = |xi − x1/2 | = × 242 = 4, 84.
n i=1 50

– Moment centré d’ordre trois :

1∑
n
1
m3 = (xi − x̄)3 = × 2743, 2 = 54, 864.
n i=1 50

Exercice 2.3

1. Montrez que
1 ∑∑
n n
s2x = (xi − xj )2 .
2n2 i=1 j=1

35
Chapitre 3

Statistique descriptive
bivariée

3.1 Série statistique bivariée

On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur
les n unités d’observation. Pour chaque unité, on obtient donc deux mesures. La
série statistique est alors une suite de n couples des valeurs prises par les deux
variables sur chaque individu :

(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).

Chacune des deux variables peut être, soit quantitative, soit qualitative. On
examine deux cas.
– Les deux variables sont quantitatives.
– Les deux variables sont qualitatives.

3.2 Deux variables quantitatives

3.2.1 Représentation graphique de deux variables

Dans ce cas, chaque couple est composé de deux valeurs numériques. Un

couple de nombres (entiers ou réels) peut toujours être représenté comme un
point dans un plan

(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).

36
54 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

Exemple 3.1 On mesure le poids Y et la taille X de 20 individus.

yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187
100
90
poids

80
70
60

155 160 165 170 175 180 185 190

taille

Figure 3.1 – Le nuage de points

En langage R

# nuage de points
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101)
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189
plot(taille,poids)

37
3.2. DEUX VARIABLES QUANTITATIVES 55

3.2.2 Analyse des variables

Les variables x et y peuvent être analysées séparément. On peut calculer
tous les paramètres dont les moyennes et les variances :
1∑ 1∑
n n
x̄ = xi , s2x = (xi − x̄)2 ,
n i=1 n i=1

1∑ 1∑
n n
ȳ = yi , s2y = (yi − ȳ)2 .
n i=1 n i=1
Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes
marginales, écarts-types marginaux, quantiles marginaux, etc.. . .

3.2.3 Covariance
La covariance est déﬁnie
1∑
n
sxy = (xi − x̄)(yi − ȳ).
n i=1

Remarque 3.1
– La covariance peut prendre des valeurs positives, négatives ou nulles.
– Quand xi = yi , pour tout i = 1, . . . , n, la covariance est égale à la va-
riance.

Théorème 3.1 La covariance peut également s’écrire :

1∑
n
xi yi − x̄ȳ.
n i=1

Démonstration
1∑
n
sxy = (xi − x̄)(yi − ȳ)
n i=1
1∑
n
= (xi yi − yi x̄ − ȳxi + x̄ȳ)
n i=1
1∑ 1∑ 1∑ 1∑
n n n n
= xi yi − yi x̄ − ȳxi + x̄ȳ
n i=1 n i=1 n i=1 n i=1
1∑
n
= xi yi − x̄ȳ − x̄ȳ + x̄ȳ
n i=1
1∑
n
= xi yi − x̄ȳ.
n i=1

38
56 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

3.2.4 Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types
marginaux :
sxy
rxy = .
sx sy
Le coefficient de détermination est le carré du coefficient de corrélation :

2
s2xy
rxy = .
s2x s2y

Remarque 3.2

– Le coeﬃcient de corrélation mesure la dépendance linéaire entre deux va-

riables :
– −1 ≤ rxy ≤ 1,
– 0 ≤ rxy
2
≤ 1.
– Si le coefficient de corrélation est positif, les points sont alignés le long
d’une droite croissante.
– Si le coefficient de corrélation est négatif, les points sont alignés le long
d’une droite décroissante.
– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de
dépendance linéaire. On peut cependant avoir une dépendance non-linéaire
avec un coefficient de corrélation nul.

r=1 r=−1 r=0

r>0 r<0 r=0

Figure 3.2 – Exemples de nuages de points et coeﬃcients de corrélation

39
3.2. DEUX VARIABLES QUANTITATIVES 57

3.2.5 Droite de régression

La droite de régression est la droite qui ajuste au mieux un nuage de points
au sens des moindres carrés.
On considère que la variable X est explicative et que la variable Y est
dépendante. L’équation d’une droite est

y = a + bx.

Le problème consiste à identifier une droite qui ajuste bien le nuage de points.
Si les coefficients a et b étaient connus, on pourrait calculer les résidus de la
régression définis par :
ei = yi − a − bxi .
Le résidu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droite
de régression pour prédire yi à partir de xi . Les résidus peuvent être positifs ou
négatifs.
100

yi
90

ei
y *i
poids

80
70
60

155 160 165 170 175 180 185 190

taille

Figure 3.3 – Le nuage de points, le résidu

40
58 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

En langage R
# Graphique avec le résidus
plot(taille,poids)
segments(158,a+b*158,190,a+b*190)
segments(180,a+b*180,180,96,col="red")
#
text(178,90,expression(e))
text(178.7,89.5,"i")
#
arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14)
arrows(180,60,180,a+b*180,col="blue",length=0.14)
arrows(180,96,156,96,col="blue",length=0.14)
#
text(154.8,86,expression(y))
text(155.5,85.5,"i")
#
text(154.8,97,expression(y))
text(155.5,97.8,"*")
text(155.5,96.5,"i")

Pour déterminer la valeur des coeﬃcients a et b on utilise le principe des

moindres carrés qui consiste à chercher la droite qui minimise la somme des
carrés des résidus :
∑
n ∑
n
2
M (a, b) = e2i = (yi − a − bxi ) .
i=1 i=1

Théorème 3.2 Les coeﬃcients a et b qui minimisent le critère des moindres

carrés sont donnés par :
sxy
b= 2 et a = ȳ − bx̄.
sx
Démonstration Le minimum M (a, b) en (a, b) s’obtient en annulant les dérivées
partielles par rapport à a et b.
 ∑n

 ∂M (a, b) = −

 2 (yi − a − bxi ) = 0
∂a i=1
 ∂M (a, b)
 ∑n

 = − 2 (yi − a − bxi ) xi = 0
∂b i=1

On obtient un système de deux équations à deux inconnues. En divisant les

deux équations par −2n, on obtient :

1∑
n



 n (yi − a − bxi ) = 0
i=1
 1∑

n

 (yi − a − bxi ) xi = 0,
n i=1

41
3.2. DEUX VARIABLES QUANTITATIVES 59

ou encore 
1∑ 1∑ 1∑
n n n



 n yi − a − b xi = 0
i=1
n i=1 n i=1
 1∑

n
1∑
n
1∑ 2
n

 yi xi − axi − bx = 0,
n i=1 n i=1 n i=1 i
ce qui s’écrit aussi


 ȳ =na + bx̄
1∑ 1∑ 2
n

 n yi xi − ax̄ − bx = 0.
i=1
n i=1 i
La première équation montre que la droite passe par le point (x̄, ȳ). On obtient
a = ȳ − bx̄.
En remplaçant a par ȳ − bx̄ dans la seconde équation, on a
1∑ 1∑ 2
n n
xi yi − (ȳ − bx̄)x̄ − b x
n i=1 n i=1 i
( n )
1∑ 1∑ 2
n
= xi yi − x̄ȳ − b x − x̄2
n i=1 n i=1 i
= sxy − bs2x
= 0,
ce qui donne
sxy − bs2x = 0.
Donc
sxy
b= .
s2x
On a donc identifié les deux paramètres
 sxy

 b = 2 (la pente)
sx
 sxy
 a = ȳ − bx̄ = ȳ − 2 x̄ (la constante).
sx
On devrait en outre vérifier qu’il s’agit bien d’un minimum en montrant que la
matrice des dérivées secondes est définie positive. 2
La droite de régression est donc
sxy sxy
y = a + bx = ȳ − 2 x̄ + 2 x,
sx sx
ce qui peut s’écrire aussi
sxy
y − ȳ = (x − x̄).
s2x

Remarque 3.3 La droite de régression de y en x n’est pas la même que la

droite de régression de x en y.

42
60 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

Figure 3.4 – La droite de régression

100
90
poids

80
70
60

155 160 165 170 175 180 185 190

taille

43
64 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

3.3 Deux variables qualitatives

3.3.1 Données observées
Si les deux variables x et y sont qualitatives, alors les données observées sont
une suite de couples de variables
(x1 , y1 ), . . . , (xi , yj ), . . . , (xn , yn ),
chacune des deux variables prend comme valeurs des modalités qualitatives.
Les valeurs distinctes de x et y sont notées respectivement
x1 , . . . , xj , . . . , xJ
et
y1 , . . . , yk , . . . , yK .

3.3.2 Tableau de contingence

Les données observées peuvent être regroupées sous la forme d’un tableau de
contingence
y1 · · · yk · · · yK total
x1 n11 · · · n1k · · · n1K n1.
.. .. .. ..
. . . .
xj nj1 ··· njk ··· njK nj.
.. .. .. ..
. . . .
xJ nJ1 ··· nJk ··· nJK nJ.
total n.1 ··· n.k n.K n
Les nj. et n.k sont appelés les eﬀectifs marginaux. Dans ce tableau,
– nj. représente le nombre de fois que la modalité xj apparaı̂t,
– n.k représente le nombre de fois que la modalité yk apparaı̂t,
– njk représente le nombre de fois que les modalités xj et yk apparaissent
ensemble.
On a les relations
∑
J
njk = n.k , pour tout k = 1, . . . , K,
j=1

∑
K
njk = nj. , pour tout j = 1, . . . , J,
k=1

44
3.3. DEUX VARIABLES QUALITATIVES 65

et
∑
J ∑
K ∑
J ∑
K
nj. = n.k = njk = n .
j=1 k=1 j=1 k=1

Exemple 3.2 On s’intéresse à une éventuelle relation entre le sexe de 200 per-
sonnes et la couleur des yeux. Le Tableau 3.1 reprend le tableau de contingence.

Table 3.1 – Tableau des eﬀectifs njk

Bleu Vert Marron Total

Homme 10 50 20 80
Femme 20 60 40 120
Total 30 110 60 200

3.3.3 Tableau des fréquences

Le tableau de fréquences s’obtient en divisant tous les eﬀectifs par la taille
de l’échantillon :
njk
fjk = , j = 1, . . . , J, k = 1, . . . , K
n
nj.
fj. = , j = 1, . . . , J,
n
n.k
f.k = , k = 1, . . . , K.
n
Le tableau des fréquences est

y1 ··· yk ··· yK total

x1 f11 ··· f1k ··· f1K f1.
.. .. .. ..
. . . .
xj fj1 ··· fjk ··· fjK fj.
.. .. .. ..
. . . .
xJ fJ1 ··· fJk ··· fJK fJ.
total f.1 ··· f.k f.K 1

Exemple 3.3 Le Tableau 3.2 reprend le tableau des fréquences.

45
66 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

Table 3.2 – Tableau des fréquences

Bleu Vert Marron Total

Homme 0.05 0.25 0.10 0.40
Femme 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1.00

3.3.4 Proﬁls lignes et proﬁls colonnes

Un tableau de contingence s’interprète toujours en comparant des fréquences
en lignes ou des fréquences en colonnes (appelés aussi profils lignes et profils
colonnes).
Les profils lignes sont définis par
(j) njk fjk
fk = = , k = 1, . . . , K, j = 1, . . . , J,
nj. fj.
et les profils colonnes par
(k) njk fjk
fj = = , j = 1, . . . , J, k = 1, . . . , K.
n.k f.k
Exemple 3.4 Le Tableau 3.3 reprend le tableau des profils lignes, et le Tableau

3.4 reprend le tableau des proﬁls colonnes.

Table 3.3 – Tableau des proﬁls lignes

Bleu Vert Marron Total

Homme 0.13 0.63 0.25 1.00
Femme 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30 1.00

Table 3.4 – Tableau des proﬁls colonnes

Bleu Vert Marron Total

Homme 0.33 0.45 0.33 0.40
Femme 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.00 1.00

Vous aimerez peut-être aussi

Cours Probabilite Statistique
Pas encore d'évaluation
Cours Probabilite Statistique
125 pages
Cours Statistiques-Demographie
67% (3)
Cours Statistiques-Demographie
202 pages
Chapitre1 - Introduction À La Statistique
Pas encore d'évaluation
Chapitre1 - Introduction À La Statistique
20 pages
Statistiques de Gestion Chapitre 1
Pas encore d'évaluation
Statistiques de Gestion Chapitre 1
13 pages
Cours 1
Pas encore d'évaluation
Cours 1
35 pages
Statistiques en psychologie et sciences sociales
100% (1)
Statistiques en psychologie et sciences sociales
81 pages
Introduction aux Statistiques Descriptives
Pas encore d'évaluation
Introduction aux Statistiques Descriptives
55 pages
Formules de Statistiques Descriptives
Pas encore d'évaluation
Formules de Statistiques Descriptives
86 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
19 pages
Statistiques Descriptives Cours s1 Prof
100% (3)
Statistiques Descriptives Cours s1 Prof
157 pages
Concepts de base en statistique
Pas encore d'évaluation
Concepts de base en statistique
35 pages
Cours de Statistiques et Probabilités
Pas encore d'évaluation
Cours de Statistiques et Probabilités
280 pages
Cours de Probabilités et Statistiques
Pas encore d'évaluation
Cours de Probabilités et Statistiques
77 pages
Techniques Quantitatives: Statistiques et Probabilités
Pas encore d'évaluation
Techniques Quantitatives: Statistiques et Probabilités
30 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
25 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
43 pages
Introduction à la statistique descriptive
Pas encore d'évaluation
Introduction à la statistique descriptive
4 pages
Stat Proba
Pas encore d'évaluation
Stat Proba
20 pages
Introduction à la statistique simple
Pas encore d'évaluation
Introduction à la statistique simple
28 pages
Introduction à la statistique et vocabulaire
Pas encore d'évaluation
Introduction à la statistique et vocabulaire
6 pages
2 - Statistiques - Descriptives - Avec - R - Master 2
Pas encore d'évaluation
2 - Statistiques - Descriptives - Avec - R - Master 2
24 pages
Cours SDCP Dec19
Pas encore d'évaluation
Cours SDCP Dec19
75 pages
Cours Stat 1e Variable
Pas encore d'évaluation
Cours Stat 1e Variable
25 pages
Pr. Yousfi Abdellah Séance1
Pas encore d'évaluation
Pr. Yousfi Abdellah Séance1
20 pages
Statistiques descriptives univariées
Pas encore d'évaluation
Statistiques descriptives univariées
79 pages
Seq 5
Pas encore d'évaluation
Seq 5
10 pages
Cours Probastat Complet
Pas encore d'évaluation
Cours Probastat Complet
38 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
21 pages
Statistique Descriptive
50% (2)
Statistique Descriptive
105 pages
Vocabulaire et tableaux statistiques
100% (1)
Vocabulaire et tableaux statistiques
61 pages
Statistique Descriptive : Concepts et Représentations
Pas encore d'évaluation
Statistique Descriptive : Concepts et Représentations
39 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
213 pages
Analyse Des Données - Rappel - Ouazza
Pas encore d'évaluation
Analyse Des Données - Rappel - Ouazza
69 pages
Analyse Statistique des Données Numériques
Pas encore d'évaluation
Analyse Statistique des Données Numériques
127 pages
Cours BIost I Pr. Khrfouchi
Pas encore d'évaluation
Cours BIost I Pr. Khrfouchi
21 pages
Cours Statistik 2 Ok
Pas encore d'évaluation
Cours Statistik 2 Ok
28 pages
Cours L1 - 2024 - S1
Pas encore d'évaluation
Cours L1 - 2024 - S1
58 pages
Chapitre
Pas encore d'évaluation
Chapitre
33 pages
Exposé Complet Sur Les Variables Qualitatives: 1. Définition Et Caractéristiques Des Variables Qualitatives
Pas encore d'évaluation
Exposé Complet Sur Les Variables Qualitatives: 1. Définition Et Caractéristiques Des Variables Qualitatives
4 pages
Cours Statistique Descriptive L3 2024-2025
Pas encore d'évaluation
Cours Statistique Descriptive L3 2024-2025
58 pages
Cours Su
Pas encore d'évaluation
Cours Su
66 pages
Introduction à la Statistique Descriptive
Pas encore d'évaluation
Introduction à la Statistique Descriptive
92 pages
CHAPITRE I Les Statistiques2023
Pas encore d'évaluation
CHAPITRE I Les Statistiques2023
49 pages
Statistique Financière Appliquée
Pas encore d'évaluation
Statistique Financière Appliquée
149 pages
Cours de Statistiques Generales L1 Sequence 1 2 3 4
0% (1)
Cours de Statistiques Generales L1 Sequence 1 2 3 4
47 pages
Cours de Statistiques 1 : Méthodologie Quantitative
Pas encore d'évaluation
Cours de Statistiques 1 : Méthodologie Quantitative
26 pages
Cours de Biostatistics
Pas encore d'évaluation
Cours de Biostatistics
49 pages
LA BIOSTATISTIQUE PR Ben Salem Kamel 1
Pas encore d'évaluation
LA BIOSTATISTIQUE PR Ben Salem Kamel 1
129 pages
COURS Sur Les Statistiques Descriptives Diapos CORRIGEES
Pas encore d'évaluation
COURS Sur Les Statistiques Descriptives Diapos CORRIGEES
38 pages
Analyse de la Moyenne et Histogramme
Pas encore d'évaluation
Analyse de la Moyenne et Histogramme
14 pages
CM Stat-Proba.
Pas encore d'évaluation
CM Stat-Proba.
40 pages
Capture D'écran . 2025-06-17 À 22.29.28
Pas encore d'évaluation
Capture D'écran . 2025-06-17 À 22.29.28
162 pages
Methode Dechantillonage Chapitre 2 l3
Pas encore d'évaluation
Methode Dechantillonage Chapitre 2 l3
69 pages
Cours S3 Chapitre2 2020-2021
Pas encore d'évaluation
Cours S3 Chapitre2 2020-2021
33 pages
Etudes Economiques Analyse Numerique Et Intelligence Artificielle
Pas encore d'évaluation
Etudes Economiques Analyse Numerique Et Intelligence Artificielle
27 pages
Cartes de contrôle en fabrication
Pas encore d'évaluation
Cartes de contrôle en fabrication
6 pages
Imecaoudene, Kahina
Pas encore d'évaluation
Imecaoudene, Kahina
73 pages
Evidence Based Nursing EP4
Pas encore d'évaluation
Evidence Based Nursing EP4
40 pages
Optimisation et Recherche Opérationnelle
Pas encore d'évaluation
Optimisation et Recherche Opérationnelle
16 pages
Bio Statistique
Pas encore d'évaluation
Bio Statistique
106 pages
Tests d'hypothèses en biostatistique
Pas encore d'évaluation
Tests d'hypothèses en biostatistique
16 pages
Méthodologie UE 206
Pas encore d'évaluation
Méthodologie UE 206
128 pages
Phi 8071
Pas encore d'évaluation
Phi 8071
14 pages
Rapport D'analyse
Pas encore d'évaluation
Rapport D'analyse
25 pages