Analyse bivariée
Université Virtuelle du Sénégal
Oumy Niass
[Link]@[Link]
(O. NIASS) Statistique 1 / 41
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 2 / 41
Introduction
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 3 / 41
Introduction
Définition et But
Elles consistent
à étudier simultanément deux variables X et Y, étudiées sur le
même échantillon, toujours noté Ω.
à mettre en évidence la présence ou l’absence d’une relation
(liaison) entre deux variables
Dans certains cas, cette liaison peut être considérée a priori
comme causale, une variable X expliquant l’autre Y ;
et dans d’autres, ce n’est pas le cas, et les deux variables
jouent des rôles symétriques.
Les caractères étudiés peuvent être aussi quantitatifs que
qualitatifs.
(O. NIASS) Statistique 4 / 41
Introduction
Objectifs d’apprentissage
Sur ce chapitre ;
nous présentons les graphiques et tableaux illustrant les
liaisons entre variables plot), diagrammes-boîtes parallèles,
diagramme de profils, tableau de nuages (scatter-plot matrix)
De même, nous introduisons les notions de covariance,
coefficient de corrélation linéaire, régression linéaire, rapport
de corrélation et autres indicateurs qui lui sont liés
(O. NIASS) Statistique 5 / 41
Introduction
Préliminaires
Soit (X,Y ) une distribution statistique d’un couple de caractères
qualitatif sur une population d’effectif n. Notons (x1 , x2 , ..., xp ), et
(y1 , y2 , ..., yq ) les valeurs distinctes observées pour X et Y
ordonnées dans l’ordre croissant (p et q sont respectivement le
nombre de modalités de X et Y).
Distribution conjointe
La fréquence des observations (xi , yj ) nommée fij représente
la proportion de sujets qui possèdent simultanément les
valeurs xi et yj .
nij
Elle est obtenue par : fij = n, avec (nij l)
P P
Notez que i j fij =1
(O. NIASS) Statistique 6 / 41
Introduction
Préliminaires
Distributions marginales
L’effectif marginal de xi (respectivement deP
yj ) est égal au
nombre ni. = qj=1 nij (respectivement n.j = pi=1 nij )
P
La fréquence marginale de xi (respectivement
P de yi ) est égal
au nombre fi. = qj=1 fij (respectivement f.j = pi=1 fij )
P
(O. NIASS) Statistique 7 / 41
Deux variables qualitatives
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 8 / 41
Deux variables qualitatives Table des effectifs observés
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 9 / 41
Deux variables qualitatives Table des effectifs observés
Table de contingence
Soit (X,Y ) une distribution statistique d’un couple de caractères
qualitatif sur une population d’effectif n. Notons (x1 , x2 , ..., xp ), et
(y1 , y2 , ..., yq ) les valeurs distinctes observées pour X et Y
ordonnées dans l’ordre croissant (p et q sont respectivement le
nombre de modalités de X et Y).
Z Les résultats sont généralement représentés sous forme d’un
tableau à double entrée, appelé tableau à deux dimensions,
ou tableau croisé, ou tableau de contingence dans lequel on
dispose les modalités de X en lignes et celles de Y en
ordonnées
(O. NIASS) Statistique 10 / 41
Deux variables qualitatives Table des effectifs observés
Tableau de contingence
y1 y2 ··· yk ··· yq Total ligne Li
x1 n11 n12 ··· n1k ··· n1q n1.
.. .. .. .. .. ..
. . . . . .
xl nl1 nl2 ··· nlk ··· nlq nl.
.. .. .. .. .. ..
. . . . . .
xp np1 np2 ··· npk ··· npq np.
Total colonne Cj n.1 n.2 ··· n.k ··· n.q n
Z Les nj. et n.k sont appelés les effectifs marginaux.
Z nj. représente le nombre de fois que la modalité xj apparait,
Z n.k représente le nombre de fois que la modalité yk apparaît,
Z njk représente le nombre de fois que les modalités xj et yk
apparaissent ensemble.
(O. NIASS) Statistique 11 / 41
Deux variables qualitatives Table des effectifs observés
Tableau de contingence
Propriétés
Z Nous avons les relations suivantes :
p
X
njk = n.k avec k = 1, 2, · · · , p
j=1
q
X
nji = nj. avec j = 1, 2, · · · , p
i=1
p
X q
X p X
X q
nj. = n.k = njk = n
j=1 k =1 j=1 k =1
(O. NIASS) Statistique 12 / 41
Deux variables qualitatives Table des effectifs observés
Tableau de contingence : Exemple
Z On s’intéresse à une éventuelle relation entre le sexe de 200
personnes et la couleur des yeux. Le Tableau ci-dessous reprend
le tableau de contingence.
Bleu Vert Maron Total Li
Homme 10 50 20 80
Femme 20 60 40 120
Total Cj 30 110 60 200
(O. NIASS) Statistique 13 / 41
Deux variables qualitatives Table des effectifs observés
Tableau des fréquences
Z Le tableau de fréquences s’obtient à partir de la table de
contingence en divisant tous les effectifs par la taille de
l’échantillon n :
njk
Z fjk = n avec , j = 1, ..., p, k = 1, ..., q
Z f.k = nn.k avec k = 1, ..., q
n
Z fj. = nj. avec j = 1, ..., p
y1 y2 ··· yk ··· yq Total
x1 f11 f12 ··· f1k ··· f1q f1.
.. .. .. .. .. ..
. . . . . .
xl fl1 fl2 ··· flk ··· flq fl.
.. .. .. .. .. ..
. . . . . .
xp fp1 fp2 ··· fpk ··· fpq fp.
Total f.1 f.2 ··· f.k ··· f.q 1.00
(O. NIASS) Statistique 14 / 41
Deux variables qualitatives Table des effectifs observés
Tableau des fréquences
Exemple
Bleu Vert Maron Total
Homme 0.05 0.25 0.10 0.40
Femme 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1.00
(O. NIASS) Statistique 15 / 41
Deux variables qualitatives Table des effectifs observés
Profils lignes et profils colonnes
ZUn tableau de contingence s’interprète toujours en comparant
des fréquences en lignes ou des fréquences en colonnes (appelés
aussi profils lignes et profils colonnes).
Les profils lignes sont définis par
njk fjk
Z fkj = nj. = fj. avec , j = 1, ..., p, k = 1, ..., q
Les profils colonnes sont définis par
njk fjk
Z fjk = nj. = f.k avec , j = 1, ..., p, k = 1, ..., q
(O. NIASS) Statistique 16 / 41
Deux variables qualitatives Table des effectifs observés
Profils lignes et profils colonnes : Exemple
Tableau des profils lignes
Bleu Vert Maron Total
Homme 0.13 0.63 0.25 1.00
Femme 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30 1.00
Tableau des profils colonnes
Bleu Vert Maron Total
Homme 0.33 0.45 0.33 0.40
Femme 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.00 1.00
(O. NIASS) Statistique 17 / 41
Deux variables qualitatives Table des effectifs observés
Indépendance entre les variables
Tableau des profils lignes
Bleu Vert Maron Total
Homme 0.13 0.63 0.25 1.00
Femme 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30 1.00
Tableau des profils colonnes
Bleu Vert Maron Total
Homme 0.33 0.45 0.33 0.40
Femme 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.00 1.00
(O. NIASS) Statistique 18 / 41
Deux variables qualitatives Table des effectifs théoriques
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 19 / 41
Deux variables qualitatives Table des effectifs théoriques
Effectifs théoriques
Z A partir des effectifs marginaux Cj et Li , on peut calculer les
effectifs théoriques lorsque X et Y sont indépendantes. Ils sont
donnés par la formule :
Li ∗ Cj
eij =
n
Z Revenons sur notre exemple
Tableau des effectifs théoriques
Bleu Vert Maron Total Li
80∗30 80∗110 80∗60
Homme 200 = 12 200 = 44 200 = 24 80
120∗30 120∗110 120∗60
Femme 200 = 18 200 = 66 200 = 36 120
Total Cj 30 110 60 200
(O. NIASS) Statistique 20 / 41
Deux variables qualitatives Coefficients d’association
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 21 / 41
Deux variables qualitatives Coefficients d’association
Coefficients d’association
Z La liste n’est pas exhaustive. Toutefois, le coefficient le plus
important est celui du khi-deux qui est utilisé pour tester
l’indépendance des deux variables à partir d’un échantillon
d’individus.
Coefficient de Khi-Deux χ2
le coefficient de Khi-Deux mesure la distance globale entre les
effectifs observés nij et les effectifs théoriques eij attendus lorsque
les deux variables sont indépendantes :
X (nij − eij )2
χ2 =
eij
Z Le coefficient est positif ou nul. S’il est égale à zéro, les
variables sont indépendantes.
Z Sa valeur augmente avec, l’intensité de la relation, n, etc. Ce
qui le rend difficile à interpréter.
(O. NIASS) Statistique 22 / 41
Deux variables qualitatives Coefficients d’association
Coefficients d’association
Coefficient de Phi-Deux φ2
Z Le coefficient φ2 est donné par la formule :
χ2
φ2 =
n
Z Il élimine l’effet de la taille n mais il dépend toujours de L et C.
Il est souvent utilisé dans le cas d’une table 2 × 2 car il est compris
entre 0 et 1.
(O. NIASS) Statistique 23 / 41
Deux variables quantitatives
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 24 / 41
Deux variables quantitatives Nuage de points
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 25 / 41
Deux variables quantitatives Nuage de points
Représentation graphique
Z Considérons des mesures X et Y (quantitatives) effectuées sur
un échantillon d’effectif n. Nous obtenons pour chaque individus i
le couple (xi , yi ) qyu représente les mesures effectuées sur le
même individu i.
Z En reportant ces valeurs sur deux axes, on construit le point
plan correspondant aux coordonnées xi et yi .
Nuage de points
Z On appelle Nuage de point l’ensemble des points plan.
(O. NIASS) Statistique 26 / 41
Deux variables quantitatives Nuage de points
Nuage de point : exemple
La représentation graphique liant la longueur et la largeur du pétale
pour les 150 iris (les iris sont des fleurs).
NB : L’aspect de ce nuage de point est important à
observer
(O. NIASS) Statistique 27 / 41
Deux variables quantitatives Nuage de points
Nuage de point : exemple
A : Corrélation non linéaire
B : Absence de liaison en moyenne
C : Corrélation linéaire
D : Absence de liaison
(O. NIASS) Statistique 28 / 41
Deux variables quantitatives Indicateurs de liaison linéaire
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 29 / 41
Deux variables quantitatives Indicateurs de liaison linéaire
Covariance
Z La covariance du couple (X , Y ) est par définition le nombre réel
noté Cov (X , Y ) qui vaut :
n
1X
Cov (X , Y ) = (xi − X̄ )(yi − Ȳ )
n
i=1
La covariance est un indicateur du sens de la variation
simultanée.
Si globalement, lorsque X croît, Y croît, alors la covariance est
positive.
Propriétés
1 Pn
Cov (X , Y ) = n i=1 xi yi − X̄ Ȳ )
Si a, b, c et d désignent quatre réels on a :
Cov (aX + b, cY + d) = a c Cov (X , Y )
(O. NIASS) Statistique 30 / 41
Deux variables quantitatives Indicateurs de liaison linéaire
Coefficient de corrélation
Soient σ(X ) et σ(Y ) les écart-types respectifs des variables x et Y .
Z Le coefficient de corrélation de Pearson noté, r (X , Y ) du
couple (X , Y ) est définie par :
Cov (X , Y )
r (X , Y ) =
σ(X )σ(Y )
Z Le coefficient de corrélation quantifie l’intensité de la liaison
linéaire entre deux variables.
Propriétés
−1 ≤ r (X , Y ) ≤ 1
Si a, b, c et d désignent quatre réels on a :
ac
r (aX + b, cY + d) = r (X , Y )
|ac|
(O. NIASS) Statistique 31 / 41
Deux variables quantitatives Indicateurs de liaison linéaire
Exercice d’application (Doucouré, edition ARIMA)
Le tableau suivant présente les poids (au Kg près) X, les tailles (au
cm près) Y, de 10 élèves âgés de neuf ans.
X 20 21 22 22 25 26 27 28 29 30
Y 115 120 117 123 130 123 132 132 128 135
1 Pn
Cov (X , Y ) = n i=1 xi yi − X̄ Ȳ ) = 19.5
Cov (X ,Y )
r (X , Y ) = σ(X )σ(Y ) = 0.884
(O. NIASS) Statistique 32 / 41
Deux variables quantitatives Indicateurs de liaison linéaire
Covariance et coefficient de corrélation linéaire
IMPORTANT
La covariance et le coefficient de corrélation ne permettent de
mettre en évidence qu’une relation linéaire entre X et Y .
Si deux variables sont statistiquement indépendantes (aucun
lien), la corrélation est nulle, mais l’inverse est faux : il peut
exister un lien autre que linéaire entre elles.
(O. NIASS) Statistique 33 / 41
Une variable quantitative et une variable qualitative
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 34 / 41
Une variable quantitative et une variable qualitative Notations et Définitions
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 35 / 41
Une variable quantitative et une variable qualitative Notations et Définitions
Une variable quantitative et une variable qualitative
Soient X est une variable qualitative à p modalités, m1 , ..., mp
et Y est une variable quantitative.
On dispose alors de p sous-populations déterminées par les p
modalités de X .
L’étude de la liaison entre X et Y consiste en l’étude des
différences entre ces sous-populations : il y aura absence de
lien si on ne distingue pas de différence notoire dans les
caractéristiques de ces différentes sous-populations.
(O. NIASS) Statistique 36 / 41
Une variable quantitative et une variable qualitative Notations et Définitions
Une variable quantitative et une variable qualitative
Notations et Définitions
Z On note Ȳ et SY2 la moyenne et la variance de Y , nk l’effectif de
la sous-population desPindividus pour lesquels X vaut
mk ( pk =1 nk = n)
(O. NIASS) Statistique 37 / 41
Une variable quantitative et une variable qualitative Notations et Définitions
Une variable quantitative et une variable qualitative
Notations et Définitions
On appelle variance résiduelle, la moyenne pondérée des
variances des sous-populations :
p
1X
SR2 = nk Sk2
n
k =1
On appelle variance expliquée par X, la moyenne pondérée
des carrés des variations des sous-populations :
p
1X
SE2 = nk (y¯k − ȳ )2
n
k =1
On montre que l’on a : sy2 = sR2 + sE2 (Exercice 3 du TD)
(O. NIASS) Statistique 38 / 41
Une variable quantitative et une variable qualitative Notations et Définitions
Visualisation
Z On utilise en général un graphique en boîtes parallèles
(box-plots). Sur un même graphique doté d’une échelle unique on
représente pour Y une boîte à moustaches pour chacune des
sous-populations définies par X .
Z La comparaison de ces boîtes donne une idée assez claire de
la liaison entre les deux variables.
(O. NIASS) Statistique 39 / 41
Une variable quantitative et une variable qualitative Indicateur de liaison
Sommaire
1 Introduction
2 Deux variables qualitatives
Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association
3 Deux variables quantitatives
Nuage de points
Indicateurs de liaison linéaire
4 Une variable quantitative et une variable qualitative
Notations et Définitions
Indicateur de liaison
(O. NIASS) Statistique 40 / 41
Une variable quantitative et une variable qualitative Indicateur de liaison
Indicateur de liaison : le rapport de corrélation
Définition
le rapport de corrélation est la part de variations de Y expliquée par
X dans la variation totale de Y.
SE2
e2 =
SY2
Propriétés
e2 est compris entre 0 et 1
e2 est d’autant plus grand que le lien est fort.
(O. NIASS) Statistique 41 / 41