0% ont trouvé ce document utile (0 vote)
72 vues46 pages

Cours Statistique

Le document présente les concepts fondamentaux de la statistique, y compris les définitions des variables, des données statistiques et des tableaux. Il décrit les différents types de variables, telles que qualitatives (nominales et ordinales) et quantitatives (discrètes et continues), ainsi que les méthodes de représentation graphique des données. Des exemples pratiques et des codes en langage R sont fournis pour illustrer la construction de tableaux statistiques et de diagrammes.

Transféré par

issraelkourd824
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
72 vues46 pages

Cours Statistique

Le document présente les concepts fondamentaux de la statistique, y compris les définitions des variables, des données statistiques et des tableaux. Il décrit les différents types de variables, telles que qualitatives (nominales et ordinales) et quantitatives (discrètes et continues), ainsi que les méthodes de représentation graphique des données. Des exemples pratiques et des codes en langage R sont fournis pour illustrer la construction de tableaux statistiques et de diagrammes.

Transféré par

issraelkourd824
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 1

Variables, données
statistiques, tableaux,
effectifs

1.1 Définitions fondamentales


1.1.1 La science statistique
– Méthode scientifique du traitement des données quantitatives.
– Etymologiquement : science de l’état.
– La statistique s’applique à la plupart des disciplines : agronomie, biologie,
démographie, économie, sociologie, linguistique, psychologie, . . .

1.1.2 Mesure et variable


– On s’intéresse à des unités statistiques ou unités d’observation : par exemple
des individus, des entreprises, des ménages. En sciences humaines, on
s’intéresse dans la plupart des cas à un nombre fini d’unités.
– Sur ces unités, on mesure un caractère ou une variable, le chiffre d’affaires
de l’entreprise, le revenu du ménage, l’âge de la personne, la catégorie so-
cioprofessionnelle d’une personne. On suppose que la variable prend tou-
jours une seule valeur sur chaque unité. Les variables sont désignées par
simplicité par une lettre (X, Y, Z).
– Les valeurs possibles de la variable, sont appelées modalités.
– L’ensemble des valeurs possibles ou des modalités est appelé le domaine
de la variable.

1.1.3 Typologie des variables


– Variable qualitative : La variable est dite qualitative quand les modalités

1
10CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

sont des catégories.


– Variable qualitative nominale : La variable est dite qualitative nominale
quand les modalités ne peuvent pas être ordonnées.
– Variable qualitative ordinale : La variable est dite qualitative ordinale
quand les modalités peuvent être ordonnées. Le fait de pouvoir ou non
ordonner les modalités est parfois discutable. Par exemple : dans les
catégories socioprofessionnelles, on admet d’ordonner les modalités :
‘ouvriers’, ‘employés’, ‘cadres’. Si on ajoute les modalités ‘sans profes-
sion’, ‘enseignant’, ‘artisan’, l’ordre devient beaucoup plus discutable.
– Variable quantitative : Une variable est dite quantitative si toute ses va-
leurs possibles sont numériques.
– Variable quantitative discrète : Une variable est dite discrète, si l’en-
semble des valeurs possibles est dénombrable.
– Variable quantitative continue : Une variable est dite continue, si l’en-
semble des valeurs possibles est continu.

Remarque 1.1 Ces définitions sont à relativiser, l’âge est théoriquement


une variable quantitative continue, mais en pratique, l’âge est mesuré dans le
meilleur des cas au jour près. Toute mesure est limitée en précision !

Exemple 1.1 Les modalités de la variable sexe sont masculin (codé M) et


féminin (codé F). Le domaine de la variable est {M, F }.

Exemple 1.2 Les modalités de la variable nombre d’enfants par famille sont
0,1,2,3,4,5,. . .C’est une variable quantitative discrète.

1.1.4 Série statistique


On appelle série statistique la suite des valeurs prises par une variable X sur
les unités d’observation.
Le nombre d’unités d’observation est noté n.
Les valeurs de la variable X sont notées

x1 , . . . , xi , . . . , xn .

Exemple 1.3 On s’intéresse à la variable ‘état-civil’ notée X et à la série sta-


tistique des valeurs prises par X sur 20 personnes. La codification est

C: célibataire,
M: marié(e),
V: veuf(ve),
D: divorcée.

2
1.2. VARIABLE QUALITATIVE NOMINALE 11

Le domaine de la variable X est {C, M, V, D}. Considérons la série statistique


suivante :
M M D C C M C C C M
C M V M V D C C C M

Ici, n = 20,

x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.

1.2 Variable qualitative nominale


1.2.1 Effectifs, fréquences et tableau statistique
Une variable qualitative nominale a des valeurs distinctes qui ne peuvent
pas être ordonnées. On note J le nombre de valeurs distinctes ou modalités.
Les valeurs distinctes sont notées x1 , . . . , xj , . . . , xJ . On appelle effectif d’une
modalité ou d’une valeur distincte, le nombre de fois que cette modalité (ou
valeur distincte) apparaı̂t. On note nj l’effectif de la modalité xj . La fréquence
d’une modalité est l’effectif divisé par le nombre d’unités d’observation.
nj
fj = , j = 1, . . . , J.
n
Exemple 1.4 Avec la série de l’exemple précédent, on obtient le tableau sta-

tistique :
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
n = 20 1

3
12CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

En langage R

>X=c(’Marié(e)’,’Marié(e)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Marié(e)’,’Céli
’Célibataire’,’Célibataire’,’Marié(e)’,’Célibataire’,’Marié(e)’,’Veuf(ve)’,’Mar
’Veuf(ve)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Célibataire’,’Marié(e)’)
> T1=table(X)
> V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))
Eff Freq
Célibataire 9 0.45
Divorcé(e) 2 0.10
Marié(e) 7 0.35
Veuf(ve) 2 0.10

1.2.2 Diagramme en secteurs et diagramme en barres


Le tableau statistique d’une variable qualitative nominale peut être représenté
par deux types de graphique. Les effectifs sont représentés par un diagramme
en barres et les fréquences par un diagramme en secteurs (ou camembert ou
piechart en anglais) (voir Figures 1.1 et 1.2).

Célibataire

Divorcé(e)

Veuf(ve)

Marié(e)

Figure 1.1 – Diagramme en secteurs des fréquences

En langage R

> pie(T1,radius=1.0)

4
1.3. VARIABLE QUALITATIVE ORDINALE 13

10
8
6
4
2
0

Célibataire Divorcé(e) Marié(e) Veuf(ve)

Figure 1.2 – Diagramme en barres des effectifs

En langage R
>m=max(V1)
>barplot(T1, ylim=c(0,m+1))

1.3 Variable qualitative ordinale


1.3.1 Le tableau statistique
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées, ce
qu’on écrit
x1 ≺ x2 ≺ · · · ≺ xj−1 ≺ xj ≺ · · · ≺ xJ−1 ≺ xJ .
La notation x1 ≺ x2 se lit x1 précède x2 .
Si la variable est ordinale, on peut calculer les effectifs cumulés :


j
Nj = nk , j = 1, . . . , J.
k=1

On a N1 = n1 et NJ = n. On peut également calculer les fréquences cumulées

Nj ∑ j
Fj = = fk , j = 1, . . . , J.
n
k=1

Exemple 1.5 On interroge 50 personnes sur leur dernier diplôme obtenu (va-
riable Y ). La codification a été faite selon le Tableau 1.1. On a obtenu la série

5
14CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

Table 1.1 – Codification de la variable Y

Dernier diplôme obtenu xj


Sans diplôme Sd
Primaire P
Secondaire Se
Supérieur non-universitaire Su
Universitaire U

Table 1.2 – Série statistique de la variable Y

Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U

Table 1.3 – Tableau statistique complet

xj nj Nj fj Fj
Sd 4 4 0.08 0.08
P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00
50 1.00

statistique présentée dans le tableau 1.2. Finalement, on obtient le tableau sta-


tistique complet présenté dans le Tableau 1.3.

En langage R

> YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P",
"Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se",
"Su","Su","Su","Su","Su","Su","Su","Su","Su",
"U","U","U","U","U","U","U","U","U","U","U","U")
YF=factor(YY,levels=c("Sd","P","Se","Su","U"))
T2=table(YF)
V2=c(T2)
> data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2)))
Eff EffCum Freq FreqCum
Sd 4 4 0.08 0.08

6
1.3. VARIABLE QUALITATIVE ORDINALE 15

P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00

1.3.2 Diagramme en secteurs


Les fréquences d’une variable qualitative ordinale sont représentées au moyen
d’un diagramme en secteurs (voir Figure 1.3).

Se
Sd

U
Su

Figure 1.3 – Diagramme en secteurs des fréquences

En langage R
> pie(T2,radius=1)

1.3.3 Diagramme en barres des effectifs


Les effectifs d’une variable qualitative ordinale sont représentés au moyen
d’un diagramme en barres (voir Figure 1.4).

En langage R
> barplot(T2)

7
16CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

14
12
10
8
6
4
2
0

Sd P Se Su U

Figure 1.4 – Diagramme en barres des effectifs

1.3.4 Diagramme en barres des effectifs cumulés


Les effectifs cumulés d’une variable qualitative ordinale sont représentés au
moyen d’un diagramme en barres (voir Figure 1.5).
50
40
30
20
10
0

Sd P Se Su U

Figure 1.5 – Diagramme en barres des effectifs cumulés

8
1.4. VARIABLE QUANTITATIVE DISCRÈTE 17

En langage R

> T3=cumsum(T2)
> barplot(T3)

1.4 Variable quantitative discrète


1.4.1 Le tableau statistique
Une variable discrète a un domaine dénombrable.

Exemple 1.6 Un quartier est composé de 50 ménages, et la variable Z représente


le nombre de personnes par ménage. Les valeurs de la variable sont

1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8

Comme pour les variables qualitatives ordinales, on peut calculer les effectifs,
les effectifs cumulés, les fréquences, les fréquences cumulées. À nouveau, on peut
construire le tableau statistique :

xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.0

En langage R

> Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,
+ 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
> T4=table(Z)
> T4c=c(T4)
> data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c)))
Eff EffCum Freq FreqCum

9
18CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00

1.4.2 Diagramme en bâtonnets des effectifs


Quand la variable est discrète, les effectifs sont représentés par des bâtonnets
(voir Figure 1.6).
15
10
5
0

1 2 3 4 5 6 8

Figure 1.6 – Diagramme en bâtonnets des effectifs pour une variable quanti-
tative discrète

En langage R

> plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)

10
1.5. VARIABLE QUANTITATIVE CONTINUE 19

1.4.3 Fonction de répartition


Les fréquences cumulées sont représentées au moyen de la fonction de répartition.
Cette fonction, présentée en Figure 1.7,est définie de R dans [0, 1] et vaut :

 0 x < x1
F (x) = Fj xj ≤ x < xj+1

1 xJ ≤ x.
1.0
0.8
0.6
0.4
0.2
0.0

0 2 4 6 8

Figure 1.7 – Fonction de répartition d’une variable quantitative discrète

En langage R
> plot(ecdf(Z),xlab="",ylab="",main="",frame=0)

1.5 Variable quantitative continue


1.5.1 Le tableau statistique
Une variable quantitative continue peut prendre une infinité de valeurs pos-
sibles. Le domaine de la variable est alors R ou un intervalle de R. En pratique,
une mesure est limitée en précision. La taille peut être mesurée en centimètres,
voire en millimètres. On peut alors traiter les variables continues comme des
variables discrètes. Cependant, pour faire des représentations graphiques et

11
20CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

construire le tableau statistique, il faut procéder à des regroupements en classes.


Le tableau regroupé en classe est souvent appelé distribution groupée. Si [c− +
j ; cj [
designe la classe j, on note, de manière générale :

– c−
j la borne inférieure de la classe j,
– c+
j la borne supérieure de la classe j,

– cj = (c+j + cj )/2 le centre de la classe j,

– aj = c+j − cj l’amplitude de la classe j,
– nj l’effectif de la classe j,
– Nj l’effectif cumulé de la classe j,
– fj la fréquence de la classe j,
– Fj la fréquence cumulée de la classe j.

La répartition en classes des données nécessite de définir a priori le nombre


de classes J et donc l’amplitude de chaque classe. En règle générale, on choisit
au moins cinq classes de même amplitude. Cependant, il existent des formules
qui nous permettent d’établir le nombre de classes et l’intervalle de classe (l’am-
plitude) pour une série statistique de n observations.
– La règle de Sturge : J = 1√ + (3.3 log10 (n)).
– La règle de Yule : J = 2.5 4 n.

L’intervalle de classe est obtenue ensuite de la manière suivante : longueur


de l’intervalle = (xmax − xmin )/J, où xmax (resp. xmin ) désigne la plus grande
(resp. la plus petite) valeur observée.

Remarque 1.2 Il faut arrondir le nombre de classe J à l’entier le plus proche.


Par commodité, on peut aussi arrondir la valeur obtenue de l’intervalle de classe.

A partir de la plus petite valeur observée, on obtient les bornes de classes


en additionnant successivement l’intervalle de classe (l’amplitude).

Exemple 1.7 On mesure la taille en centimetres de 50 élèves d’une classe :

152 152 152 153 153


154 154 154 155 155
156 156 156 156 156
157 157 157 158 158
159 159 160 160 160
161 160 160 161 162
162 162 163 164 164
164 164 165 166 167
168 168 168 169 169
170 171 171 171 171

12
1.5. VARIABLE QUANTITATIVE CONTINUE 21

On a les classes de tailles définies préablement comme il suit :

[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[

On construit le tableau statistique.

[c− +
j , cj ] nj Nj fj Fj
[151, 5; 155, 5[ 10 10 0.20 0.20
[155, 5; 159, 5[ 12 22 0.24 0.44
[159, 5; 163, 5[ 11 33 0.22 0.66
[163, 5; 167, 5[ 7 40 0.14 0.80
[167, 5; 171, 5[ 10 50 0.20 1.00
50 1.00

En langage R

> S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,
+ 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, +
162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, +
170,171,171,171,171)
> T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
> T5c=c(T5)
> data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c)))
Eff EffCum Freq FreqCum
(151,155] 10 10 0.20 0.20 (155,159] 12 22 0.24 0.44
(159,163] 11 33 0.22 0.66 (163,167] 7 40 0.14 0.80
(167,171] 10 50 0.20 1.00

1.5.2 Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des
classes par des rectangles contigus dont la surface (et non la hauteur) représente
l’effectif (resp. la fréquence). Pour un histogramme des effectifs, la hauteur du
rectangle correspondant à la classe j est donc donnée par :
nj
hj =
aj

– On appelle hj la densité d’effectif.

13
22CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

– L’aire de l’histogramme est égale à l’effectif total n, puisque l’aire de


chaque rectangle est égale à l’effectif de la classe j : aj × hj = nj .
Pour un histogramme des fréquences on a

fj
dj =
aj

– On appelle dj la densité de fréquence.


– L’aire de l’histogramme est égale à 1, puisque l’aire de chaque rectangle
est égale à la fréquence de la classe j : aj × dj = fj .
Figure 1.8 représente l’histogramme des fréquences de l’exemple précedent :
0.06
0.04
0.02
0.00

151.5 155.5 159.5 163.5 167.5 171.5

Figure 1.8 – Histogramme des fréquences

En langage R

> hist(S,breaks=c(151.5,155.5,159.5,163.5,167.5,171.5), freq=FALSE,


xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,167.5,171.5))

Si les deux dernières classes sont agrégées, comme dans la Figure 1.9, la
surface du dernier rectangle est égale à la surface des deux derniers rectangles
de l’histogramme de la Figure 1.8.

En langage R

> hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5),
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,171.5))

14
1.5. VARIABLE QUANTITATIVE CONTINUE 23

0.06
0.04
0.02
0.00

151.5 155.5 159.5 163.5 171.5

Figure 1.9 – Histogramme des fréquences avec les deux dernières classes
agrégées

Remarque 1.3 Dans le cas de classes de même amplitude certains auteurs


et logiciels représentent l’histogramme avec les effectifs (resp. les fréquences)
reportés en ordonnée, l’aire de chaque rectangle étant proportionnelle à l’effectif
(resp. la fréquence) de la classe.

1.5.3 La fonction de répartition


La fonction de répartition F (x) est une fonction de R dans [0, 1], qui est
définie par


 0 x < c−
1

Fj−1 + c+ −c− (x − cj ) c−
fj
F (x) = j ≤ x < c+
j

 j j
1 c+
J ≤ x

15
24CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS

Figure 1.10 – Fonction de répartition d’une distribution groupée


0.0 0.2 0.4 0.6 0.8 1.0

151.5 155.5 159.5 163.5 167.5 171.5

16
Chapitre 2

Statistique descriptive
univariée

2.1 Paramètres de position


2.1.1 Le mode
Le mode est la valeur distincte correspondant à l’effectif le plus élevé ; il est
noté xM .
Si on reprend la variable ‘Etat civil’ , dont le tableau statistique est le sui-
vant :
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
n = 20 1

le mode est C : célibataire.

Remarque 2.1
– Le mode peut être calculé pour tous les types de variable, quantitative et
qualitative.
– Le mode n’est pas nécessairement unique.
– Quand une variable continue est découpée en classes, on peut définir une
classe modale (classe correspondant à l’effectif le plus élevé).

2.1.2 La moyenne
La moyenne ne peut être définie que sur une variable quantitative.

27

17
28 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

La moyenne est la somme des valeurs observées divisée par leur nombre, elle
est notée x̄ :
1∑
n
x1 + x2 + · · · + xi + · · · + xn
x̄ = = xi .
n n i=1

La moyenne peut être calculée à partir des valeurs distinctes et des effectifs

1∑
J
x̄ = n j xj .
n j=1

Exemple 2.1 Les nombres d’enfants de 8 familles sont les suivants 0, 0, 1, 1, 1, 2, 3, 4.


La moyenne est
0+0+1+1+1+2+3+4 12
x̄ = = = 1.5.
8 8
On peut aussi faire les calculs avec les valeurs distinctes et les effectifs. On
considère le tableau :
xj nj
0 2
1 3
2 1
3 1
4 1
8

2×0+3×1+1×2+1×3+1×4
x̄ =
8
3+2+3+4
=
8
= 1.5.

Remarque 2.2 La moyenne n’est pas nécessairement une valeur possible.


En langage R

E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb

18
2.1. PARAMÈTRES DE POSITION 29

2.1.3 Remarques sur le signe de sommation
Définition 2.1

n
xi = x1 + x2 + · · · + xn .
i=1

1. En statistique les xi sont souvent les valeurs observées.


∑ n ∑n
2. L’indice est muet : xi = xj .
i=1 j=1

3. Quand il n’y a pas de confusion possible, on peut écrire i xi .

Exemple 2.2

4
1. xi = x1 + x2 + x3 + x4 .
i=1


5
2. xi2 = x32 + x42 + x52 .
i=3


3
3. i = 1 + 2 + 3 = 6.
i=1
4. On peut utiliser plusieurs sommations emboı̂tées, mais il faut bien distin-
guer les indices :


3 ∑
2
xij = x11 + x12 (i = 1)
i=1 j=1
+ x21 + x22 (i = 2)
+ x31 + x32 (i = 3)

5. On peut exclure une valeur de l’indice.


5
xi = x1 + x2 + x4 + x5 .
i=1
i̸=3

Propriété 2.1

1. Somme d’une constante



n
a = a + a + · · · + a = na (a constante).
| {z }
i=1
n fois

19
30 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Exemple

5
3 = 3 + 3 + 3 + 3 + 3 = 5 × 3 = 15.
i=1

2. Mise en évidence


n ∑
n
axi = a xi (a constante).
i=1 i=1

Exemple

3
2 × i = 2(1 + 2 + 3) = 2 × 6 = 12.
i=1

3. Somme des n premiers entiers


n
n(n + 1)
i = 1 + 2 + 3 + ··· + n = .
i=1
2

4. Distribution

n ∑
n ∑
n
(xi + yi ) = xi + yi .
i=1 i=1 i=1

5. Distribution

n ∑
n ∑
n
(xi − yi ) = xi − yi .
i=1 i=1 i=1

1∑
n
Exemple (avec x̄ = xi )
n i=1


n ∑
n ∑
n
1∑
n
(xi − x̄) = xi − x̄ = n xi − nx̄ = nx̄ − nx̄ = 0.
i=1 i=1 i=1
n i=1

6. Somme de carrés


n ∑
n ∑
n ∑
n ∑
n
(xi − yi )2 = (x2i − 2xi yi + yi2 ) = x2i − 2 xi y i + yi2 .
i=1 i=1 i=1 i=1 i=1

C’est une application de la formule

(a − b)2 = a2 − 2ab + b2 .

20
2.1. PARAMÈTRES DE POSITION 31

2.1.4 Moyenne géométrique


Si xi ≥ 0, on appelle moyenne géométrique la quantité
( n )1/n
∏ 1/n
G= xi = (x1 × x2 × · · · × xn ) .
i=1

On peut écrire la moyenne géométrique comme l’exponentielle de la moyenne


arithmétique des logarithmes des valeurs observées
( n )1/n
∏ 1 ∏n
1∑
n
G = exp log G = exp log xi = exp log xi = exp log xi .
i=1
n i=1
n i=1

La moyenne géométrique s’utilise, par exemple, quand on veut calculer la moyenne


de taux d’intérêt.

Exemple 2.3 Supposons que les taux d’intérêt pour 4 années consécutives
soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir après 4 ans si je
place 100 francs ?
– Après 1 an on a, 100 × 1.05 = 105 Fr.
– Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr.
– Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr.
– Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr.
Si on calcule la moyenne arithmétique des taux on obtient
1.05 + 1.10 + 1.15 + 1.10
x̄ = = 1.10.
4
Si on calcule la moyenne géométrique des taux, on obtient
1/4
G = (1.05 × 1.10 × 1.15 × 1.10) = 1.099431377.
Le bon taux moyen est bien G et non x̄, car si on applique 4 fois le taux moyen
G aux 100 francs, on obtient
100 Fr × G4 = 100 × 1.0994313774 = 146.1075 Fr.

2.1.5 Moyenne harmonique


Si xi ≥ 0, on appelle moyenne harmonique la quantité
n
H = ∑n .
i=1 1/xi

Il est judicieux d’appliquer la moyenne harmonique sur des vitesses.

Exemple 2.4 Un cycliste parcourt 4 étapes de 100km. Les vitesses respectives


pour ces étapes sont de 10 km/h, 30 km/h, 40 km/h, 20 km/h. Quelle a été sa
vitesse moyenne ?

21
32 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

– Un raisonnement simple nous dit qu’il a parcouru la première étape en


10h, la deuxième en 3h20 la troisième en 2h30 et la quatrième en 5h. Il a
donc parcouru le total des 400km en

10 + 3h20 + 2h30 + 5h = 20h50 = 20.8333h,

sa vitesse moyenne est donc


400
Moy = = 19.2 km/h.
20.8333
– Si on calcule la moyenne arithmétique des vitesses, on obtient
10 + 30 + 40 + 20
x̄ = = 25 km/h.
4
– Si on calcule la moyenne harmonique des vitesses, on obtient
4
H= 1 1 1 1 = 19.2 km/h.
10 + 30 + 40 + 20

La moyenne harmonique est donc la manière appropriée de calculer la


vitesse moyenne.

Remarque 2.3 Il est possible de montrer que la moyenne harmonique est tou-
jours inférieure ou égale à la moyenne géométrique qui est toujours inférieure
ou égale à la moyenne arithmétique

H ≤ G ≤ x̄.

2.1.6 Moyenne pondérée


Dans certains cas, on n’accorde pas le même poids à toutes les observations.
Par exemple, si on calcule la moyenne des notes pour un programme d’étude, on
peut pondérer les notes de l’étudiant par le nombre de crédits ou par le nombre
d’heures de chaque cours. Si wi > 0, i = 1, . . . , n sont les poids associés à chaque
observation, alors la moyenne pondérée par wi est définie par :
∑n
w i xi
x̄w = ∑i=1
n .
i=1 wi

Exemple 2.5 Supposons que les notes soient pondérées par le nombre de
crédits, et que les notes de l’étudiant soient les suivantes :

22
2.1. PARAMÈTRES DE POSITION 33

Note 5 4 3 6 5
Crédits 6 3 4 3 4

La moyenne pondérée des notes par les crédits est alors


6×5+3×4+4×3+3×6+4×5 30 + 12 + 12 + 18 + 20 92
x̄w = = = = 4.6.
6+3+4+3+4 20 20

2.1.7 La médiane
La médiane, notée x1/2 , est une valeur centrale de la série statistique obtenue
de la manière suivante :
– On trie la série statistique par ordre croissant des valeurs observées. Avec
la série observée :
3 2 1 0 0 1 2,
on obtient :
0 0 1 1 2 2 3.
– La médiane x1/2 est la valeur qui se trouve au milieu de la série ordonnée :

0 0 1 1 2 2 3.

On note alors x1/2 = 1.


Nous allons examiner une manière simple de calculer la médiane. Deux cas
doivent être distingués.
– Si n est impair, il n’y a pas de problème (ici avec n = 7), alors x1/2 = 1 :

0 0 1 1 2 2 3.

La Figure 2.1 montre la fonction de répartition de la série. La médiane


peut être définie comme l’inverse de la fonction de répartition pour la
valeur 1/2 :
x1/2 = F −1 (0.5).

En langage R
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1,0.50,1,0,length=0.14,col="blue")

23
34 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Figure 2.1 – Médiane quand n est impair

1.00
0.50
0.00

−1 0 1 2 3 4

– Si n est pair, deux valeurs se trouvent au milieu de la série (ici avec n = 8)

0 0 1 1 2 2 3 4
↑ ↑

La médiane est alors la moyenne de ces deux valeurs :


1+2
x1/2 = = 1.5.
2
La Figure 2.2 montre la fonction de répartition de la série de taille paire.
La médiane peut toujours être définie comme l’inverse de la fonction de
répartition pour la valeur 1/2 :

x1/2 = F −1 (0.5).

Cependant, la fonction de répartition est discontinue par ‘palier’. L’inverse


de la répartition correspond exactement à un ‘palier’.

Figure 2.2 – Médiane quand n est pair


1.00
0.50
0.00

−1 0 1 2 3 4 5

En langage R

24
2.1. PARAMÈTRES DE POSITION 35

x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")

En général on note
x(1) , . . . , x(i) , . . . , x(n)
la série ordonnée par ordre croissant. On appelle cette série ordonnée la statis-
tique d’ordre. Cette notation, très usuelle en statistique, permet de définir la
médiane de manière très synthétique.
– Si n est impair
x1/2 = x( n+1 )
2

– Si n est pair
1{ }
x1/2 = x( n ) + x( n +1) .
2 2 2

Remarque 2.4 La médiane peut être calculée sur des variables quantitatives
et sur des variables qualitatives ordinales.

2.1.8 Quantiles
La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane.
Formellement un quantile est donné par l’inverse de la fonction de répartition :

xp = F −1 (p).

Si la fonction de répartition était continue et strictement croissante, la définition


du quantile serait sans équivoque. La fonction de répartition est cependant dis-
continue et “par palier”. Quand la fonction de répartition est par palier, il existe
au moins 9 manières différentes de définir les quantiles selon que l’on fasse ou
non une interpolation de la fonction de répartition. Nous présentons une de ces
méthodes, mais il ne faut pas s’étonner de voir les valeurs des quantiles différer
légèrement d’un logiciel statistique à l’autre.
– Si np est un nombre entier, alors
1{ }
xp = x(np) + x(np+1) .
2
– Si np n’est pas un nombre entier, alors

xp = x(⌈np⌉) ,

où ⌈np⌉ représente le plus petit nombre entier supérieur ou égal à np.

25
36 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Remarque 2.5
– La médiane est le quantile d’ordre p = 1/2.
– On utilise souvent
x1/4 le premier quartile,
x3/4 le troisième quartile,
x1/10 le premier décile ,
x1/5 le premier quintile,
x4/5 le quatrième quintile,
x9/10 le neuvième décile,
x0.05 le cinquième percentile ,
x0.95 le nonante-cinquième percentile.
– Si F (x) est la fonction de répartition, alors F (xp ) ≥ p.

Exemple 2.6 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,
34 contenant 12 observations (n = 12).
– Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre entier, on
a
x(3) + x(4) 15 + 16
x1/4 = = = 15.5.
2 2
– La médiane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a

1{ }
x1/2 = x(6) + x(7) = (19 + 22)/2 = 20.5.
2
– Le troisième quartile : Comme np = 0.75 × 12 = 9 est un nombre entier,
on a
x(9) + x(10) 25 + 27
x3/4 = = = 26.
2 2

En langage R

x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)

Exemple 2.7 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
contenant 10 observations (n = 10).
– Le premier quartile : Comme np = 0.25 × 10 = 2.5 n’est pas un nombre
entier, on a
x1/4 = x(⌈2.5⌉) = x(3) = 15.

26
2.2. PARAMÈTRES DE DISPERSION 37

– La médiane : Comme np = 0.5 × 10 = 5 est un nombre entier, on a

1{ }
x1/2 = x(5) + x(6) = (18 + 19)/2 = 18.5.
2
– Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un nombre
entier, on a
x3/4 = x(⌈7.5⌉) = x(8) = 24.

En langage R

x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)

2.2 Paramètres de dispersion


2.2.1 L’étendue
L’étendue est simplement la différence entre la plus grande et la plus petite
valeur observée.
E = x(n) − x(1) .

2.2.2 La distance interquartile


La distance interquartile est la différence entre le troisième et le premier
quartile :
IQ = x3/4 − x1/4 .

2.2.3 La variance
La variance est la somme des carrés des écarts à la moyenne divisée par le
nombre d’observations :
1∑
n
s2x = (xi − x̄)2 .
n i=1

Théorème 2.1 La variance peut aussi s’écrire

1∑ 2
n
s2x = x − x̄2 . (2.1)
n i=1 i

27
38 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Démonstration
1∑ 1∑ 2
n n
s2x = (xi − x̄)2 = (x − 2xi x̄ + x̄2 )
n i=1 n i=1 i
1∑ 2 1∑ 1∑ 2 1∑ 2 1∑
n n n n n
= xi − 2 xi x̄ + x̄ = xi − 2x̄ xi + x̄2
n i=1 n i=1 n i=1 n i=1 n i=1
1∑ 2 1∑ 2
n n
= xi − 2x̄x̄ + x̄2 = x − x̄2 .
n i=1 n i=1 i

2
La variance peut également être définie à partir des effectifs et des valeurs
distinctes :
1∑
J
s2x = nj (xj − x̄)2 .
n j=1

La variance peut aussi s’écrire

1∑
J
s2x = nj x2j − x̄2 .
n j=1

Quand on veut estimer une variance d’une variable X à partir d’un échantillon
(une partie de la population sélectionnée au hasard) de taille n, on utilise la va-
riance “corrigée” divisée par n − 1.

1 ∑
n
n
Sx2 = (xi − x̄)2 = s2x .
n − 1 i=1 n−1

La plupart des logiciels statistiques calculent Sx2 et non s2x .

2.2.4 L’écart-type
L’écart-type est la racine carrée de la variance :

sx = s2x .

Quand on veut estimer l’écart-type d’une variable X partir d’un échantillon


de taille n, utilise la variance “corrigée” pour définir l’écart type

√ n
2
Sx = Sx = sx .
n−1
La plupart des logiciels statistiques calculent Sx et non sx .

Exemple 2.8 Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille 8. On a


2+3+4+4+5+6+7+9
x̄ = = 5,
8

28
2.2. PARAMÈTRES DE DISPERSION 39

1∑
n
s2x = (xi − x̄)2
n i=1
1[ ]
= (2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
8
1
= [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
=
8
= 4.5.

On peut également utiliser la formule (2.1) de la variance, ce qui nécessite moins


de calcul (surtout quand la moyenne n’est pas un nombre entier).

1∑ 2
n
s2x = x − x̄2
n i=1 i
1 2
= (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52
8
1
= (4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25
8
236
= − 25
8
= 29.5 − 25 = 4.5.

En langage R
> x=c(2,3,4,4,5,6,7,9)
> n=length(x)
> s2=sum((x-mean(x))^2)/n
> s2
[1] 4.5
> S2=s2*n/(n-1)
> S2
[1] 5.142857
> S2=var(x)
> S2
[1] 5.142857
> s=sqrt(s2)
> s
[1] 2.121320
> S=sqrt(S2)
> S
[1] 2.267787
> S=sd(x)

29
40 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

> S
[1] 2.267787
> E=max(x)-min(x)
> E
[1] 7

2.2.5 L’écart moyen absolu


L’écart moyen absolu est la somme des valeurs absolues des écarts à la
moyenne divisée par le nombre d’observations :

1∑
n
emoy = |xi − x̄| .
n i=1

2.2.6 L’écart médian absolu


L’écart médian absolu est la somme des valeurs absolues des écarts à la
médiane divisée par le nombre d’observations :

1∑
n
emed = xi − x1/2 .
n i=1

2.3 Moments
Définition 2.2 On appelle moment à l’origine d’ordre r ∈ N le paramètre

1∑ r
n
m′r = x .
n i=1 i

Définition 2.3 On appelle moment centré d’ordre r ∈ N le paramètre

1∑
n
mr = (xi − x̄)r .
n i=1

Les moments généralisent la plupart des paramètres. On a en particulier


– m′1 = x̄,
– m1 = 0,
1∑ 2
– m′2 = x = s2x + x̄2 ,
n i i
– m2 = s2x .
Nous verrons plus loin que des moments d’ordres supérieurs (r=3,4) sont utilisés
pour mesurer la symétrie et l’aplatissement.

30
2.4. PARAMÈTRES DE FORME 41

2.4 Paramètres de forme


2.4.1 Coefficient d’asymétrie de Fisher (skewness)
Le moment centré d’ordre trois est défini par

1∑
n
m3 = (xi − x̄)3 .
n i=1

Il peut prendre des valeurs positives, négatives ou nulles. L’asymétrie se mesure


au moyen du coefficient d’asymétrie de Fisher
m3
g1 = ,
s3x

où s3x est le cube de l’écart-type.

2.4.2 Coefficient d’asymétrie de Yule


Le coefficient d’asymétrie de Yule est basé sur les positions des 3 quartiles
(1er quartile, médiane et troisième quartile), et est normalisé par la distance
interquartile :
x3/4 + x1/4 − 2x1/2
AY = .
x3/4 − x1/4

2.4.3 Coefficient d’asymétrie de Pearson


Le coefficient d’asymétrie de Pearson est basé sur une comparaison de la
moyenne et du mode, et est standardisé par l’écart-type :
x̄ − xM
AP = .
sx

Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la
distribution est symétrique, négatifs si la distribution est allongée à gauche (left
asymmetry), et positifs si la distribution est allongée à droite (right asymmetry)
comme montré dans la Figure 2.3.

Figure 2.3 – Asymétrie d’une distribution

31
42 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

Remarque 2.6 Certaines variables sont toujours très asymétriques à droite,


comme les revenus, les tailles des entreprises, ou des communes. Une méthode
simple pour rendre une variable symétrique consiste alors à prendre le loga-
rithme de cette variable.

2.5 Paramètre d’aplatissement (kurtosis)


L’aplatissement est mesuré par le coefficient d’aplatissement de Pearson
m4
β2 = ,
s4x
ou le coefficient d’aplatissement de Fisher
m4
g2 = β2 − 3 = − 3,
s4x

où m4 est le moment centré d’ordre 4, et s4x est le carré de la variance.


– Une courbe mésokurtique si g2 ≈ 0.
– Une courbe leptokurtique si g2 > 0. Elle est plus pointue et possède des
queues plus longues.
– Une courbe platykurtique si g2 < 0. Elle est plus arrondie et possède des
queues plus courtes.
Dans la Figure 2.4, on présente un exemple de deux distributions de même
moyenne et de même variance. La distribution plus pointue est leptokurtique,
l’autre est mésokurtique. La distribution leptokurtique a une queue plus épaisse.
0.0175
0.6
0.015
0.5
0.0125
0.4
0.01
0.3
0.0075
0.2 0.005
0.1 0.0025

-4 -2 2 4 2.6 2.8 3.2 3.4 3.6 3.8 4

Figure 2.4 – Distributions mésokurtique et leptokurtique

2.6 Changement d’origine et d’unité


Définition 2.4 On appelle changement d’origine l’opération consistant à ajou-
ter (ou soustraire) la même quantité a ∈ R à toutes les observations

yi = a + xi , i = 1, . . . , n

32
2.6. CHANGEMENT D’ORIGINE ET D’UNITÉ 43

Définition 2.5 On appelle changement d’unité l’opération consistant à multi-


plier (ou diviser) par la même quantité b ∈ R toutes les observations

yi = bxi , i = 1, . . . , n.

Définition 2.6 On appelle changement d’origine et d’unité l’opération consis-


tant à multiplier toutes les observations par la même quantité b ∈ R puis à
ajouter la même quantité a ∈ R à toutes les observations :

yi = a + bxi , i = 1, . . . , n.

Théorème 2.2 Si on effectue un changement d’origine et d’unité sur une va-


riable X, alors sa moyenne est affectée du même changement d’origine et d’unité.

Démonstration Si yi = a + bxi , alors

1∑ 1∑
n n
ȳ = (a + bxi ) = a + b xi = a + bx̄.
n i=1 n i=1

Théorème 2.3 Si on effectue un changement d’origine et d’unité sur une va-


riable X, alors sa variance est affectée par le carré du changement d’unité et
pas par le changement d’origine.

Démonstration Si yi = a + bxi , alors

1∑ 1∑ 1∑
n n n
2 2
s2y = (yi − ȳ)2 = (a + bxi − a − bx̄) = b2 (xi − x̄) = b2 s2x .
n i=1 n i=1 n i=1

Remarque 2.7
1. Les paramètres de position sont tous affectés par un changement d’origine
et d’unité.
2. Les paramètres de dispersion sont tous affectés par un changement d’unité
mais pas par un changement d’origine.
3. Les paramètres de forme et d’aplatissement ne sont affectés ni par un
changement d’unité ni par un changement d’origine.

33
2.9. LA BOÎTE À MOUSTACHES 49

Exercices
Exercice 2.1 On pèse les 50 élèves d’une classe et nous obtenons les résultats
résumés dans le tableau suivant :
43 43 43 47 48
48 48 48 49 49
49 50 50 51 51
52 53 53 53 54
54 56 56 56 57
59 59 59 62 62
63 63 65 65 67
67 68 70 70 70
72 72 73 77 77
81 83 86 92 93

1. De quel type est la variable poids ?


2. Construisez le tableau statistique en adoptant les classes suivantes :
[40 ;45] ]45 ;50] ]50 ;55] ]55 ;60] ]60 ;65] ]65 ;70] ]70 ;80] ]80 ;100]
3. Construisez l’histogramme des effectifs ainsi que la fonction de répartition.

Solution

1. La variable poids est de type quantitative continue.


2.
[c− +
j , cj ] nj Nj fj Fj
[40; 45] 3 3 0.06 0.06
]45; 50] 10 13 0.20 0.26
]50; 55] 8 21 0.16 0.42
]55; 60] 7 28 0.14 0.56
]60; 65] 6 34 0.12 0.68
]65; 70] 6 40 0.12 0.80
]70; 80] 5 45 0.10 0.90
]80; 100] 5 50 0.10 1.00
50 1
3.

Exercice 2.2 Calculez tous les paramètres (de position, de dispersion et de


forme) à partir du tableau de l’exemple 1.7 sans prendre en compte les classes.

Solution

34
50 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE

– Médiane : Comme n est pair,


1 1
x1/2 = (x25 + x26 ) = (160 + 160) = 160.
2 2
– quantiles
– Premier quartile :
x1/4 = x13 = 156
– Deuxième quartile :
x3/4 = x38 = 165

– Étendue :
E = 171 − 152 = 19.
– Distance interquartile :

IQ = x3/4 − x1/4 = 165 − 156 = 9

– Variance :
1∑
n
1
s2x = (xi − x̄)2 = × 1668 = 33, 36.
n i=1 50

– Écart type : √
sx = s2x = 5, 7758.
– Écart moyen absolu :

1∑
n
1
emoy = |xi − x̄| = × 245, 2 = 4, 904.
n i=1 50

– Écart médian absolu :

1∑
n
1
emed = |xi − x1/2 | = × 242 = 4, 84.
n i=1 50

– Moment centré d’ordre trois :

1∑
n
1
m3 = (xi − x̄)3 = × 2743, 2 = 54, 864.
n i=1 50

Exercice 2.3

1. Montrez que
1 ∑∑
n n
s2x = (xi − xj )2 .
2n2 i=1 j=1

35
Chapitre 3

Statistique descriptive
bivariée

3.1 Série statistique bivariée


On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur
les n unités d’observation. Pour chaque unité, on obtient donc deux mesures. La
série statistique est alors une suite de n couples des valeurs prises par les deux
variables sur chaque individu :

(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).

Chacune des deux variables peut être, soit quantitative, soit qualitative. On
examine deux cas.
– Les deux variables sont quantitatives.
– Les deux variables sont qualitatives.

3.2 Deux variables quantitatives

3.2.1 Représentation graphique de deux variables

Dans ce cas, chaque couple est composé de deux valeurs numériques. Un


couple de nombres (entiers ou réels) peut toujours être représenté comme un
point dans un plan

(x1 , y1 ), . . . , (xi , yi ), . . . , (xn , yn ).

53

36
54 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

Exemple 3.1 On mesure le poids Y et la taille X de 20 individus.

yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187
100
90
poids

80
70
60

155 160 165 170 175 180 185 190

taille

Figure 3.1 – Le nuage de points

En langage R

# nuage de points
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101)
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189
plot(taille,poids)

37
3.2. DEUX VARIABLES QUANTITATIVES 55

3.2.2 Analyse des variables


Les variables x et y peuvent être analysées séparément. On peut calculer
tous les paramètres dont les moyennes et les variances :
1∑ 1∑
n n
x̄ = xi , s2x = (xi − x̄)2 ,
n i=1 n i=1

1∑ 1∑
n n
ȳ = yi , s2y = (yi − ȳ)2 .
n i=1 n i=1
Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes
marginales, écarts-types marginaux, quantiles marginaux, etc.. . .

3.2.3 Covariance
La covariance est définie
1∑
n
sxy = (xi − x̄)(yi − ȳ).
n i=1

Remarque 3.1
– La covariance peut prendre des valeurs positives, négatives ou nulles.
– Quand xi = yi , pour tout i = 1, . . . , n, la covariance est égale à la va-
riance.

Théorème 3.1 La covariance peut également s’écrire :


1∑
n
xi yi − x̄ȳ.
n i=1

Démonstration
1∑
n
sxy = (xi − x̄)(yi − ȳ)
n i=1
1∑
n
= (xi yi − yi x̄ − ȳxi + x̄ȳ)
n i=1
1∑ 1∑ 1∑ 1∑
n n n n
= xi yi − yi x̄ − ȳxi + x̄ȳ
n i=1 n i=1 n i=1 n i=1
1∑
n
= xi yi − x̄ȳ − x̄ȳ + x̄ȳ
n i=1
1∑
n
= xi yi − x̄ȳ.
n i=1

38
56 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

3.2.4 Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types
marginaux :
sxy
rxy = .
sx sy
Le coefficient de détermination est le carré du coefficient de corrélation :

2
s2xy
rxy = .
s2x s2y

Remarque 3.2

– Le coefficient de corrélation mesure la dépendance linéaire entre deux va-


riables :
– −1 ≤ rxy ≤ 1,
– 0 ≤ rxy
2
≤ 1.
– Si le coefficient de corrélation est positif, les points sont alignés le long
d’une droite croissante.
– Si le coefficient de corrélation est négatif, les points sont alignés le long
d’une droite décroissante.
– Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas de
dépendance linéaire. On peut cependant avoir une dépendance non-linéaire
avec un coefficient de corrélation nul.

r=1 r=−1 r=0

r>0 r<0 r=0

Figure 3.2 – Exemples de nuages de points et coefficients de corrélation

39
3.2. DEUX VARIABLES QUANTITATIVES 57

3.2.5 Droite de régression


La droite de régression est la droite qui ajuste au mieux un nuage de points
au sens des moindres carrés.
On considère que la variable X est explicative et que la variable Y est
dépendante. L’équation d’une droite est

y = a + bx.

Le problème consiste à identifier une droite qui ajuste bien le nuage de points.
Si les coefficients a et b étaient connus, on pourrait calculer les résidus de la
régression définis par :
ei = yi − a − bxi .
Le résidu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droite
de régression pour prédire yi à partir de xi . Les résidus peuvent être positifs ou
négatifs.
100

yi
90

ei
y *i
poids

80
70
60

155 160 165 170 175 180 185 190

taille

Figure 3.3 – Le nuage de points, le résidu

40
58 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

En langage R
# Graphique avec le résidus
plot(taille,poids)
segments(158,a+b*158,190,a+b*190)
segments(180,a+b*180,180,96,col="red")
#
text(178,90,expression(e))
text(178.7,89.5,"i")
#
arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14)
arrows(180,60,180,a+b*180,col="blue",length=0.14)
arrows(180,96,156,96,col="blue",length=0.14)
#
text(154.8,86,expression(y))
text(155.5,85.5,"i")
#
text(154.8,97,expression(y))
text(155.5,97.8,"*")
text(155.5,96.5,"i")

Pour déterminer la valeur des coefficients a et b on utilise le principe des


moindres carrés qui consiste à chercher la droite qui minimise la somme des
carrés des résidus :

n ∑
n
2
M (a, b) = e2i = (yi − a − bxi ) .
i=1 i=1

Théorème 3.2 Les coefficients a et b qui minimisent le critère des moindres


carrés sont donnés par :
sxy
b= 2 et a = ȳ − bx̄.
sx
Démonstration Le minimum M (a, b) en (a, b) s’obtient en annulant les dérivées
partielles par rapport à a et b.
 ∑n

 ∂M (a, b) = −

 2 (yi − a − bxi ) = 0
∂a i=1
 ∂M (a, b)
 ∑n

 = − 2 (yi − a − bxi ) xi = 0
∂b i=1

On obtient un système de deux équations à deux inconnues. En divisant les


deux équations par −2n, on obtient :

1∑
n



 n (yi − a − bxi ) = 0
i=1
 1∑

n

 (yi − a − bxi ) xi = 0,
n i=1

41
3.2. DEUX VARIABLES QUANTITATIVES 59

ou encore 
1∑ 1∑ 1∑
n n n



 n yi − a − b xi = 0
i=1
n i=1 n i=1
 1∑

n
1∑
n
1∑ 2
n

 yi xi − axi − bx = 0,
n i=1 n i=1 n i=1 i
ce qui s’écrit aussi


 ȳ =na + bx̄
1∑ 1∑ 2
n

 n yi xi − ax̄ − bx = 0.
i=1
n i=1 i
La première équation montre que la droite passe par le point (x̄, ȳ). On obtient
a = ȳ − bx̄.
En remplaçant a par ȳ − bx̄ dans la seconde équation, on a
1∑ 1∑ 2
n n
xi yi − (ȳ − bx̄)x̄ − b x
n i=1 n i=1 i
( n )
1∑ 1∑ 2
n
= xi yi − x̄ȳ − b x − x̄2
n i=1 n i=1 i
= sxy − bs2x
= 0,
ce qui donne
sxy − bs2x = 0.
Donc
sxy
b= .
s2x
On a donc identifié les deux paramètres
 sxy

 b = 2 (la pente)
sx
 sxy
 a = ȳ − bx̄ = ȳ − 2 x̄ (la constante).
sx
On devrait en outre vérifier qu’il s’agit bien d’un minimum en montrant que la
matrice des dérivées secondes est définie positive. 2
La droite de régression est donc
sxy sxy
y = a + bx = ȳ − 2 x̄ + 2 x,
sx sx
ce qui peut s’écrire aussi
sxy
y − ȳ = (x − x̄).
s2x

Remarque 3.3 La droite de régression de y en x n’est pas la même que la


droite de régression de x en y.

42
60 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

Figure 3.4 – La droite de régression

100
90
poids

80
70
60

155 160 165 170 175 180 185 190

taille

43
64 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

3.3 Deux variables qualitatives


3.3.1 Données observées
Si les deux variables x et y sont qualitatives, alors les données observées sont
une suite de couples de variables
(x1 , y1 ), . . . , (xi , yj ), . . . , (xn , yn ),
chacune des deux variables prend comme valeurs des modalités qualitatives.
Les valeurs distinctes de x et y sont notées respectivement
x1 , . . . , xj , . . . , xJ
et
y1 , . . . , yk , . . . , yK .

3.3.2 Tableau de contingence


Les données observées peuvent être regroupées sous la forme d’un tableau de
contingence
y1 · · · yk · · · yK total
x1 n11 · · · n1k · · · n1K n1.
.. .. .. ..
. . . .
xj nj1 ··· njk ··· njK nj.
.. .. .. ..
. . . .
xJ nJ1 ··· nJk ··· nJK nJ.
total n.1 ··· n.k n.K n
Les nj. et n.k sont appelés les effectifs marginaux. Dans ce tableau,
– nj. représente le nombre de fois que la modalité xj apparaı̂t,
– n.k représente le nombre de fois que la modalité yk apparaı̂t,
– njk représente le nombre de fois que les modalités xj et yk apparaissent
ensemble.
On a les relations

J
njk = n.k , pour tout k = 1, . . . , K,
j=1


K
njk = nj. , pour tout j = 1, . . . , J,
k=1

44
3.3. DEUX VARIABLES QUALITATIVES 65

et

J ∑
K ∑
J ∑
K
nj. = n.k = njk = n .
j=1 k=1 j=1 k=1

Exemple 3.2 On s’intéresse à une éventuelle relation entre le sexe de 200 per-
sonnes et la couleur des yeux. Le Tableau 3.1 reprend le tableau de contingence.

Table 3.1 – Tableau des effectifs njk

Bleu Vert Marron Total


Homme 10 50 20 80
Femme 20 60 40 120
Total 30 110 60 200

3.3.3 Tableau des fréquences


Le tableau de fréquences s’obtient en divisant tous les effectifs par la taille
de l’échantillon :
njk
fjk = , j = 1, . . . , J, k = 1, . . . , K
n
nj.
fj. = , j = 1, . . . , J,
n
n.k
f.k = , k = 1, . . . , K.
n
Le tableau des fréquences est

y1 ··· yk ··· yK total


x1 f11 ··· f1k ··· f1K f1.
.. .. .. ..
. . . .
xj fj1 ··· fjk ··· fjK fj.
.. .. .. ..
. . . .
xJ fJ1 ··· fJk ··· fJK fJ.
total f.1 ··· f.k f.K 1

Exemple 3.3 Le Tableau 3.2 reprend le tableau des fréquences.

45
66 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE

Table 3.2 – Tableau des fréquences

Bleu Vert Marron Total


Homme 0.05 0.25 0.10 0.40
Femme 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1.00

3.3.4 Profils lignes et profils colonnes


Un tableau de contingence s’interprète toujours en comparant des fréquences
en lignes ou des fréquences en colonnes (appelés aussi profils lignes et profils
colonnes).
Les profils lignes sont définis par
(j) njk fjk
fk = = , k = 1, . . . , K, j = 1, . . . , J,
nj. fj.
et les profils colonnes par
(k) njk fjk
fj = = , j = 1, . . . , J, k = 1, . . . , K.
n.k f.k
Exemple 3.4 Le Tableau 3.3 reprend le tableau des profils lignes, et le Tableau

3.4 reprend le tableau des profils colonnes.

Table 3.3 – Tableau des profils lignes

Bleu Vert Marron Total


Homme 0.13 0.63 0.25 1.00
Femme 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30 1.00

Table 3.4 – Tableau des profils colonnes

Bleu Vert Marron Total


Homme 0.33 0.45 0.33 0.40
Femme 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.00 1.00

46

Vous aimerez peut-être aussi