Cours Statistique
Cours Statistique
Variables, données
statistiques, tableaux,
effectifs
1
10CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS
Exemple 1.2 Les modalités de la variable nombre d’enfants par famille sont
0,1,2,3,4,5,. . .C’est une variable quantitative discrète.
x1 , . . . , xi , . . . , xn .
C: célibataire,
M: marié(e),
V: veuf(ve),
D: divorcée.
2
1.2. VARIABLE QUALITATIVE NOMINALE 11
Ici, n = 20,
x1 = M, x2 = M, x3 = D, x4 = C, x5 = C, . . . ., x20 = M.
tistique :
xj nj fj
C 9 0.45
M 7 0.35
V 2 0.10
D 2 0.10
n = 20 1
3
12CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS
En langage R
>X=c(’Marié(e)’,’Marié(e)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Marié(e)’,’Céli
’Célibataire’,’Célibataire’,’Marié(e)’,’Célibataire’,’Marié(e)’,’Veuf(ve)’,’Mar
’Veuf(ve)’,’Divorcé(e)’,’Célibataire’,’Célibataire’,’Célibataire’,’Marié(e)’)
> T1=table(X)
> V1=c(T1)
> data.frame(Eff=V1,Freq=V1/sum(V1))
Eff Freq
Célibataire 9 0.45
Divorcé(e) 2 0.10
Marié(e) 7 0.35
Veuf(ve) 2 0.10
Célibataire
Divorcé(e)
Veuf(ve)
Marié(e)
En langage R
> pie(T1,radius=1.0)
4
1.3. VARIABLE QUALITATIVE ORDINALE 13
10
8
6
4
2
0
En langage R
>m=max(V1)
>barplot(T1, ylim=c(0,m+1))
∑
j
Nj = nk , j = 1, . . . , J.
k=1
Nj ∑ j
Fj = = fk , j = 1, . . . , J.
n
k=1
Exemple 1.5 On interroge 50 personnes sur leur dernier diplôme obtenu (va-
riable Y ). La codification a été faite selon le Tableau 1.1. On a obtenu la série
5
14CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS
Sd Sd Sd Sd P P P P P P P P P P P Se Se
Se Se Se Se Se Se Se Se Se Se Se Se Su Su Su Su Su
Su Su Su Su U U U U U U U U U U U U
xj nj Nj fj Fj
Sd 4 4 0.08 0.08
P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00
50 1.00
En langage R
> YY=c("Sd","Sd","Sd","Sd","P","P","P","P","P","P","P","P","P","P","P",
"Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se","Se",
"Su","Su","Su","Su","Su","Su","Su","Su","Su",
"U","U","U","U","U","U","U","U","U","U","U","U")
YF=factor(YY,levels=c("Sd","P","Se","Su","U"))
T2=table(YF)
V2=c(T2)
> data.frame(Eff=V2,EffCum=cumsum(V2),Freq=V2/sum(V2),FreqCum=cumsum(V2/sum(V2)))
Eff EffCum Freq FreqCum
Sd 4 4 0.08 0.08
6
1.3. VARIABLE QUALITATIVE ORDINALE 15
P 11 15 0.22 0.30
Se 14 29 0.28 0.58
Su 9 38 0.18 0.76
U 12 50 0.24 1.00
Se
Sd
U
Su
En langage R
> pie(T2,radius=1)
En langage R
> barplot(T2)
7
16CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS
14
12
10
8
6
4
2
0
Sd P Se Su U
Sd P Se Su U
8
1.4. VARIABLE QUANTITATIVE DISCRÈTE 17
En langage R
> T3=cumsum(T2)
> barplot(T3)
1 1 1 1 1 2 2 2 2 2
2 2 2 2 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 4
4 4 4 4 4 4 4 4 4 5
5 5 5 5 5 6 6 6 8 8
Comme pour les variables qualitatives ordinales, on peut calculer les effectifs,
les effectifs cumulés, les fréquences, les fréquences cumulées. À nouveau, on peut
construire le tableau statistique :
xj nj Nj fj Fj
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
50 1.0
En langage R
> Z=c(1,1,1,1,1,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,
+ 4,4,4,4,4,4,4,4,4,5,5,5,5,5,5,6,6,6,8,8)
> T4=table(Z)
> T4c=c(T4)
> data.frame(Eff=T4c,EffCum=cumsum(T4c),Freq=T4c/sum(T4c),FreqCum=cumsum(T4c/sum(T4c)))
Eff EffCum Freq FreqCum
9
18CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS
1 5 5 0.10 0.10
2 9 14 0.18 0.28
3 15 29 0.30 0.58
4 10 39 0.20 0.78
5 6 45 0.12 0.90
6 3 48 0.06 0.96
8 2 50 0.04 1.00
1 2 3 4 5 6 8
Figure 1.6 – Diagramme en bâtonnets des effectifs pour une variable quanti-
tative discrète
En langage R
> plot(T4,type="h",xlab="",ylab="",main="",frame=0,lwd=3)
10
1.5. VARIABLE QUANTITATIVE CONTINUE 19
0 2 4 6 8
En langage R
> plot(ecdf(Z),xlab="",ylab="",main="",frame=0)
11
20CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS
– c−
j la borne inférieure de la classe j,
– c+
j la borne supérieure de la classe j,
−
– cj = (c+j + cj )/2 le centre de la classe j,
−
– aj = c+j − cj l’amplitude de la classe j,
– nj l’effectif de la classe j,
– Nj l’effectif cumulé de la classe j,
– fj la fréquence de la classe j,
– Fj la fréquence cumulée de la classe j.
12
1.5. VARIABLE QUANTITATIVE CONTINUE 21
[151, 5; 155, 5[
[155, 5; 159, 5[
[159, 5; 163, 5[
[163, 5; 167, 5[
[167, 5; 171, 5[
[c− +
j , cj ] nj Nj fj Fj
[151, 5; 155, 5[ 10 10 0.20 0.20
[155, 5; 159, 5[ 12 22 0.24 0.44
[159, 5; 163, 5[ 11 33 0.22 0.66
[163, 5; 167, 5[ 7 40 0.14 0.80
[167, 5; 171, 5[ 10 50 0.20 1.00
50 1.00
En langage R
> S=c(152,152,152,153,153,154,154,154,155,155,156,156,156,156,156,
+ 157,157,157,158,158,159,159,160,160,160,161,160,160,161,162, +
162,162,163,164,164,164,164,165,166,167,168,168,168,169,169, +
170,171,171,171,171)
> T5=table(cut(S, breaks=c(151,155,159,163,167,171)))
> T5c=c(T5)
> data.frame(Eff=T5c,EffCum=cumsum(T5c),Freq=T5c/sum(T5c),FreqCum=cumsum(T5c/sum(T5c)))
Eff EffCum Freq FreqCum
(151,155] 10 10 0.20 0.20 (155,159] 12 22 0.24 0.44
(159,163] 11 33 0.22 0.66 (163,167] 7 40 0.14 0.80
(167,171] 10 50 0.20 1.00
1.5.2 Histogramme
L’histogramme consiste à représenter les effectifs (resp. les fréquences) des
classes par des rectangles contigus dont la surface (et non la hauteur) représente
l’effectif (resp. la fréquence). Pour un histogramme des effectifs, la hauteur du
rectangle correspondant à la classe j est donc donnée par :
nj
hj =
aj
13
22CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS
fj
dj =
aj
En langage R
Si les deux dernières classes sont agrégées, comme dans la Figure 1.9, la
surface du dernier rectangle est égale à la surface des deux derniers rectangles
de l’histogramme de la Figure 1.8.
En langage R
> hist(S,breaks=c(151.5,155.5,159.5,163.5,171.5),
xlab="",ylab="",main="",xaxt = "n")
> axis(1, c(151.5,155.5,159.5,163.5,171.5))
14
1.5. VARIABLE QUANTITATIVE CONTINUE 23
0.06
0.04
0.02
0.00
Figure 1.9 – Histogramme des fréquences avec les deux dernières classes
agrégées
15
24CHAPITRE 1. VARIABLES, DONNÉES STATISTIQUES, TABLEAUX, EFFECTIFS
16
Chapitre 2
Statistique descriptive
univariée
Remarque 2.1
– Le mode peut être calculé pour tous les types de variable, quantitative et
qualitative.
– Le mode n’est pas nécessairement unique.
– Quand une variable continue est découpée en classes, on peut définir une
classe modale (classe correspondant à l’effectif le plus élevé).
2.1.2 La moyenne
La moyenne ne peut être définie que sur une variable quantitative.
27
17
28 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
La moyenne est la somme des valeurs observées divisée par leur nombre, elle
est notée x̄ :
1∑
n
x1 + x2 + · · · + xi + · · · + xn
x̄ = = xi .
n n i=1
La moyenne peut être calculée à partir des valeurs distinctes et des effectifs
1∑
J
x̄ = n j xj .
n j=1
2×0+3×1+1×2+1×3+1×4
x̄ =
8
3+2+3+4
=
8
= 1.5.
E=c(0,0,1,1,1,2,3,4)
n=length(E)
xb=sum(E)/n
xb
xb=mean(E)
xb
18
2.1. PARAMÈTRES DE POSITION 29
∑
2.1.3 Remarques sur le signe de sommation
Définition 2.1
∑
n
xi = x1 + x2 + · · · + xn .
i=1
Exemple 2.2
∑
4
1. xi = x1 + x2 + x3 + x4 .
i=1
∑
5
2. xi2 = x32 + x42 + x52 .
i=3
∑
3
3. i = 1 + 2 + 3 = 6.
i=1
4. On peut utiliser plusieurs sommations emboı̂tées, mais il faut bien distin-
guer les indices :
∑
3 ∑
2
xij = x11 + x12 (i = 1)
i=1 j=1
+ x21 + x22 (i = 2)
+ x31 + x32 (i = 3)
∑
5
xi = x1 + x2 + x4 + x5 .
i=1
i̸=3
Propriété 2.1
19
30 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
Exemple
∑
5
3 = 3 + 3 + 3 + 3 + 3 = 5 × 3 = 15.
i=1
2. Mise en évidence
∑
n ∑
n
axi = a xi (a constante).
i=1 i=1
Exemple
∑
3
2 × i = 2(1 + 2 + 3) = 2 × 6 = 12.
i=1
∑
n
n(n + 1)
i = 1 + 2 + 3 + ··· + n = .
i=1
2
4. Distribution
∑
n ∑
n ∑
n
(xi + yi ) = xi + yi .
i=1 i=1 i=1
5. Distribution
∑
n ∑
n ∑
n
(xi − yi ) = xi − yi .
i=1 i=1 i=1
1∑
n
Exemple (avec x̄ = xi )
n i=1
∑
n ∑
n ∑
n
1∑
n
(xi − x̄) = xi − x̄ = n xi − nx̄ = nx̄ − nx̄ = 0.
i=1 i=1 i=1
n i=1
6. Somme de carrés
∑
n ∑
n ∑
n ∑
n ∑
n
(xi − yi )2 = (x2i − 2xi yi + yi2 ) = x2i − 2 xi y i + yi2 .
i=1 i=1 i=1 i=1 i=1
(a − b)2 = a2 − 2ab + b2 .
20
2.1. PARAMÈTRES DE POSITION 31
Exemple 2.3 Supposons que les taux d’intérêt pour 4 années consécutives
soient respectivement de 5, 10, 15, et 10%. Que va-t-on obtenir après 4 ans si je
place 100 francs ?
– Après 1 an on a, 100 × 1.05 = 105 Fr.
– Après 2 ans on a, 100 × 1.05 × 1.1 = 115.5 Fr.
– Après 3 ans on a, 100 × 1.05 × 1.1 × 1.15 = 132.825 Fr.
– Après 4 ans on a, 100 × 1.05 × 1.1 × 1.15 × 1.1 = 146.1075 Fr.
Si on calcule la moyenne arithmétique des taux on obtient
1.05 + 1.10 + 1.15 + 1.10
x̄ = = 1.10.
4
Si on calcule la moyenne géométrique des taux, on obtient
1/4
G = (1.05 × 1.10 × 1.15 × 1.10) = 1.099431377.
Le bon taux moyen est bien G et non x̄, car si on applique 4 fois le taux moyen
G aux 100 francs, on obtient
100 Fr × G4 = 100 × 1.0994313774 = 146.1075 Fr.
21
32 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
Remarque 2.3 Il est possible de montrer que la moyenne harmonique est tou-
jours inférieure ou égale à la moyenne géométrique qui est toujours inférieure
ou égale à la moyenne arithmétique
H ≤ G ≤ x̄.
Exemple 2.5 Supposons que les notes soient pondérées par le nombre de
crédits, et que les notes de l’étudiant soient les suivantes :
22
2.1. PARAMÈTRES DE POSITION 33
Note 5 4 3 6 5
Crédits 6 3 4 3 4
2.1.7 La médiane
La médiane, notée x1/2 , est une valeur centrale de la série statistique obtenue
de la manière suivante :
– On trie la série statistique par ordre croissant des valeurs observées. Avec
la série observée :
3 2 1 0 0 1 2,
on obtient :
0 0 1 1 2 2 3.
– La médiane x1/2 est la valeur qui se trouve au milieu de la série ordonnée :
0 0 1 1 2 2 3.
↑
0 0 1 1 2 2 3.
↑
En langage R
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1,0.50,1,0,length=0.14,col="blue")
23
34 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
1.00
0.50
0.00
−1 0 1 2 3 4
0 0 1 1 2 2 3 4
↑ ↑
x1/2 = F −1 (0.5).
−1 0 1 2 3 4 5
En langage R
24
2.1. PARAMÈTRES DE POSITION 35
x=c(0 , 0 , 1 , 1 , 2 , 2 , 3 , 4)
median(x)
plot(ecdf(x),xlab="",ylab="",main="",frame=FALSE,yaxt = "n")
axis(2, c(0.0,0.25,0.50,0.75,1.00))
arrows(-1,0.5,1,0.50,length=0.14,col="blue")
arrows(1.5,0.50,1.5,0,,length=0.14,col="blue")
En général on note
x(1) , . . . , x(i) , . . . , x(n)
la série ordonnée par ordre croissant. On appelle cette série ordonnée la statis-
tique d’ordre. Cette notation, très usuelle en statistique, permet de définir la
médiane de manière très synthétique.
– Si n est impair
x1/2 = x( n+1 )
2
– Si n est pair
1{ }
x1/2 = x( n ) + x( n +1) .
2 2 2
Remarque 2.4 La médiane peut être calculée sur des variables quantitatives
et sur des variables qualitatives ordinales.
2.1.8 Quantiles
La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane.
Formellement un quantile est donné par l’inverse de la fonction de répartition :
xp = F −1 (p).
xp = x(⌈np⌉) ,
où ⌈np⌉ représente le plus petit nombre entier supérieur ou égal à np.
25
36 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
Remarque 2.5
– La médiane est le quantile d’ordre p = 1/2.
– On utilise souvent
x1/4 le premier quartile,
x3/4 le troisième quartile,
x1/10 le premier décile ,
x1/5 le premier quintile,
x4/5 le quatrième quintile,
x9/10 le neuvième décile,
x0.05 le cinquième percentile ,
x0.95 le nonante-cinquième percentile.
– Si F (x) est la fonction de répartition, alors F (xp ) ≥ p.
Exemple 2.6 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28,
34 contenant 12 observations (n = 12).
– Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre entier, on
a
x(3) + x(4) 15 + 16
x1/4 = = = 15.5.
2 2
– La médiane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a
1{ }
x1/2 = x(6) + x(7) = (19 + 22)/2 = 20.5.
2
– Le troisième quartile : Comme np = 0.75 × 12 = 9 est un nombre entier,
on a
x(9) + x(10) 25 + 27
x3/4 = = = 26.
2 2
En langage R
x=c(12,13,15,16,18,19,22,24,25,27,28,34)
quantile(x,type=2)
Exemple 2.7 Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27
contenant 10 observations (n = 10).
– Le premier quartile : Comme np = 0.25 × 10 = 2.5 n’est pas un nombre
entier, on a
x1/4 = x(⌈2.5⌉) = x(3) = 15.
26
2.2. PARAMÈTRES DE DISPERSION 37
1{ }
x1/2 = x(5) + x(6) = (18 + 19)/2 = 18.5.
2
– Le troisième quartile : Comme np = 0.75 × 10 = 7.5 n’est pas un nombre
entier, on a
x3/4 = x(⌈7.5⌉) = x(8) = 24.
En langage R
x=c(12,13,15,16,18,19,22,24,25,27)
quantile(x,type=2)
2.2.3 La variance
La variance est la somme des carrés des écarts à la moyenne divisée par le
nombre d’observations :
1∑
n
s2x = (xi − x̄)2 .
n i=1
1∑ 2
n
s2x = x − x̄2 . (2.1)
n i=1 i
27
38 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
Démonstration
1∑ 1∑ 2
n n
s2x = (xi − x̄)2 = (x − 2xi x̄ + x̄2 )
n i=1 n i=1 i
1∑ 2 1∑ 1∑ 2 1∑ 2 1∑
n n n n n
= xi − 2 xi x̄ + x̄ = xi − 2x̄ xi + x̄2
n i=1 n i=1 n i=1 n i=1 n i=1
1∑ 2 1∑ 2
n n
= xi − 2x̄x̄ + x̄2 = x − x̄2 .
n i=1 n i=1 i
2
La variance peut également être définie à partir des effectifs et des valeurs
distinctes :
1∑
J
s2x = nj (xj − x̄)2 .
n j=1
1∑
J
s2x = nj x2j − x̄2 .
n j=1
Quand on veut estimer une variance d’une variable X à partir d’un échantillon
(une partie de la population sélectionnée au hasard) de taille n, on utilise la va-
riance “corrigée” divisée par n − 1.
1 ∑
n
n
Sx2 = (xi − x̄)2 = s2x .
n − 1 i=1 n−1
2.2.4 L’écart-type
L’écart-type est la racine carrée de la variance :
√
sx = s2x .
28
2.2. PARAMÈTRES DE DISPERSION 39
1∑
n
s2x = (xi − x̄)2
n i=1
1[ ]
= (2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
8
1
= [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
=
8
= 4.5.
1∑ 2
n
s2x = x − x̄2
n i=1 i
1 2
= (2 + 32 + 42 + 42 + 52 + 62 + 72 + 92 ) − 52
8
1
= (4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25
8
236
= − 25
8
= 29.5 − 25 = 4.5.
En langage R
> x=c(2,3,4,4,5,6,7,9)
> n=length(x)
> s2=sum((x-mean(x))^2)/n
> s2
[1] 4.5
> S2=s2*n/(n-1)
> S2
[1] 5.142857
> S2=var(x)
> S2
[1] 5.142857
> s=sqrt(s2)
> s
[1] 2.121320
> S=sqrt(S2)
> S
[1] 2.267787
> S=sd(x)
29
40 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
> S
[1] 2.267787
> E=max(x)-min(x)
> E
[1] 7
1∑
n
emoy = |xi − x̄| .
n i=1
1∑
n
emed = xi − x1/2 .
n i=1
2.3 Moments
Définition 2.2 On appelle moment à l’origine d’ordre r ∈ N le paramètre
1∑ r
n
m′r = x .
n i=1 i
1∑
n
mr = (xi − x̄)r .
n i=1
30
2.4. PARAMÈTRES DE FORME 41
1∑
n
m3 = (xi − x̄)3 .
n i=1
Tous les coefficients d’asymétrie ont les mêmes propriétés, ils sont nuls si la
distribution est symétrique, négatifs si la distribution est allongée à gauche (left
asymmetry), et positifs si la distribution est allongée à droite (right asymmetry)
comme montré dans la Figure 2.3.
31
42 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
yi = a + xi , i = 1, . . . , n
32
2.6. CHANGEMENT D’ORIGINE ET D’UNITÉ 43
yi = bxi , i = 1, . . . , n.
yi = a + bxi , i = 1, . . . , n.
1∑ 1∑
n n
ȳ = (a + bxi ) = a + b xi = a + bx̄.
n i=1 n i=1
1∑ 1∑ 1∑
n n n
2 2
s2y = (yi − ȳ)2 = (a + bxi − a − bx̄) = b2 (xi − x̄) = b2 s2x .
n i=1 n i=1 n i=1
Remarque 2.7
1. Les paramètres de position sont tous affectés par un changement d’origine
et d’unité.
2. Les paramètres de dispersion sont tous affectés par un changement d’unité
mais pas par un changement d’origine.
3. Les paramètres de forme et d’aplatissement ne sont affectés ni par un
changement d’unité ni par un changement d’origine.
33
2.9. LA BOÎTE À MOUSTACHES 49
Exercices
Exercice 2.1 On pèse les 50 élèves d’une classe et nous obtenons les résultats
résumés dans le tableau suivant :
43 43 43 47 48
48 48 48 49 49
49 50 50 51 51
52 53 53 53 54
54 56 56 56 57
59 59 59 62 62
63 63 65 65 67
67 68 70 70 70
72 72 73 77 77
81 83 86 92 93
Solution
Solution
34
50 CHAPITRE 2. STATISTIQUE DESCRIPTIVE UNIVARIÉE
– Étendue :
E = 171 − 152 = 19.
– Distance interquartile :
– Variance :
1∑
n
1
s2x = (xi − x̄)2 = × 1668 = 33, 36.
n i=1 50
– Écart type : √
sx = s2x = 5, 7758.
– Écart moyen absolu :
1∑
n
1
emoy = |xi − x̄| = × 245, 2 = 4, 904.
n i=1 50
1∑
n
1
emed = |xi − x1/2 | = × 242 = 4, 84.
n i=1 50
1∑
n
1
m3 = (xi − x̄)3 = × 2743, 2 = 54, 864.
n i=1 50
Exercice 2.3
1. Montrez que
1 ∑∑
n n
s2x = (xi − xj )2 .
2n2 i=1 j=1
35
Chapitre 3
Statistique descriptive
bivariée
Chacune des deux variables peut être, soit quantitative, soit qualitative. On
examine deux cas.
– Les deux variables sont quantitatives.
– Les deux variables sont qualitatives.
53
36
54 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE
yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187
100
90
poids
80
70
60
taille
En langage R
# nuage de points
poids=c(60,61,64,67,68,69,70,70,72,73,75,76,78,80,85,90,96,96,98,101)
taille=c(155,162,157,170,164,162,169,170,178,173,180,175,173,175,179,175,180,185,189
plot(taille,poids)
37
3.2. DEUX VARIABLES QUANTITATIVES 55
1∑ 1∑
n n
ȳ = yi , s2y = (yi − ȳ)2 .
n i=1 n i=1
Ces paramètres sont appelés paramètres marginaux : variances marginales, moyennes
marginales, écarts-types marginaux, quantiles marginaux, etc.. . .
3.2.3 Covariance
La covariance est définie
1∑
n
sxy = (xi − x̄)(yi − ȳ).
n i=1
Remarque 3.1
– La covariance peut prendre des valeurs positives, négatives ou nulles.
– Quand xi = yi , pour tout i = 1, . . . , n, la covariance est égale à la va-
riance.
Démonstration
1∑
n
sxy = (xi − x̄)(yi − ȳ)
n i=1
1∑
n
= (xi yi − yi x̄ − ȳxi + x̄ȳ)
n i=1
1∑ 1∑ 1∑ 1∑
n n n n
= xi yi − yi x̄ − ȳxi + x̄ȳ
n i=1 n i=1 n i=1 n i=1
1∑
n
= xi yi − x̄ȳ − x̄ȳ + x̄ȳ
n i=1
1∑
n
= xi yi − x̄ȳ.
n i=1
38
56 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE
3.2.4 Corrélation
Le coefficient de corrélation est la covariance divisée par les deux écart-types
marginaux :
sxy
rxy = .
sx sy
Le coefficient de détermination est le carré du coefficient de corrélation :
2
s2xy
rxy = .
s2x s2y
Remarque 3.2
39
3.2. DEUX VARIABLES QUANTITATIVES 57
y = a + bx.
Le problème consiste à identifier une droite qui ajuste bien le nuage de points.
Si les coefficients a et b étaient connus, on pourrait calculer les résidus de la
régression définis par :
ei = yi − a − bxi .
Le résidu ei est l’erreur que l’on commet (voir Figure 3.3) en utilisant la droite
de régression pour prédire yi à partir de xi . Les résidus peuvent être positifs ou
négatifs.
100
yi
90
ei
y *i
poids
80
70
60
taille
40
58 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE
En langage R
# Graphique avec le résidus
plot(taille,poids)
segments(158,a+b*158,190,a+b*190)
segments(180,a+b*180,180,96,col="red")
#
text(178,90,expression(e))
text(178.7,89.5,"i")
#
arrows(180,a+b*180,156,a+b*180,col="blue",length=0.14)
arrows(180,60,180,a+b*180,col="blue",length=0.14)
arrows(180,96,156,96,col="blue",length=0.14)
#
text(154.8,86,expression(y))
text(155.5,85.5,"i")
#
text(154.8,97,expression(y))
text(155.5,97.8,"*")
text(155.5,96.5,"i")
41
3.2. DEUX VARIABLES QUANTITATIVES 59
ou encore
1∑ 1∑ 1∑
n n n
n yi − a − b xi = 0
i=1
n i=1 n i=1
1∑
n
1∑
n
1∑ 2
n
yi xi − axi − bx = 0,
n i=1 n i=1 n i=1 i
ce qui s’écrit aussi
ȳ =na + bx̄
1∑ 1∑ 2
n
n yi xi − ax̄ − bx = 0.
i=1
n i=1 i
La première équation montre que la droite passe par le point (x̄, ȳ). On obtient
a = ȳ − bx̄.
En remplaçant a par ȳ − bx̄ dans la seconde équation, on a
1∑ 1∑ 2
n n
xi yi − (ȳ − bx̄)x̄ − b x
n i=1 n i=1 i
( n )
1∑ 1∑ 2
n
= xi yi − x̄ȳ − b x − x̄2
n i=1 n i=1 i
= sxy − bs2x
= 0,
ce qui donne
sxy − bs2x = 0.
Donc
sxy
b= .
s2x
On a donc identifié les deux paramètres
sxy
b = 2 (la pente)
sx
sxy
a = ȳ − bx̄ = ȳ − 2 x̄ (la constante).
sx
On devrait en outre vérifier qu’il s’agit bien d’un minimum en montrant que la
matrice des dérivées secondes est définie positive. 2
La droite de régression est donc
sxy sxy
y = a + bx = ȳ − 2 x̄ + 2 x,
sx sx
ce qui peut s’écrire aussi
sxy
y − ȳ = (x − x̄).
s2x
42
60 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE
100
90
poids
80
70
60
taille
43
64 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE
∑
K
njk = nj. , pour tout j = 1, . . . , J,
k=1
44
3.3. DEUX VARIABLES QUALITATIVES 65
et
∑
J ∑
K ∑
J ∑
K
nj. = n.k = njk = n .
j=1 k=1 j=1 k=1
Exemple 3.2 On s’intéresse à une éventuelle relation entre le sexe de 200 per-
sonnes et la couleur des yeux. Le Tableau 3.1 reprend le tableau de contingence.
45
66 CHAPITRE 3. STATISTIQUE DESCRIPTIVE BIVARIÉE
46