0% ont trouvé ce document utile (0 vote)
16 vues41 pages

coursAD Sequence2

Ce document présente une analyse bivariée des relations entre deux variables, qu'elles soient qualitatives ou quantitatives. Il aborde des concepts tels que les tableaux de contingence, les effectifs observés et théoriques, ainsi que les coefficients d'association comme le coefficient de Khi-Deux. L'objectif est d'étudier la présence ou l'absence de relations entre les variables à l'aide de graphiques et d'indicateurs statistiques.

Transféré par

bamba.gningue
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
16 vues41 pages

coursAD Sequence2

Ce document présente une analyse bivariée des relations entre deux variables, qu'elles soient qualitatives ou quantitatives. Il aborde des concepts tels que les tableaux de contingence, les effectifs observés et théoriques, ainsi que les coefficients d'association comme le coefficient de Khi-Deux. L'objectif est d'étudier la présence ou l'absence de relations entre les variables à l'aide de graphiques et d'indicateurs statistiques.

Transféré par

bamba.gningue
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse bivariée

Université Virtuelle du Sénégal


Oumy Niass

[Link]@[Link]

(O. NIASS) Statistique 1 / 41


Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 2 / 41


Introduction

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 3 / 41


Introduction

Définition et But

Elles consistent
à étudier simultanément deux variables X et Y, étudiées sur le
même échantillon, toujours noté Ω.

à mettre en évidence la présence ou l’absence d’une relation


(liaison) entre deux variables
Dans certains cas, cette liaison peut être considérée a priori
comme causale, une variable X expliquant l’autre Y ;
et dans d’autres, ce n’est pas le cas, et les deux variables
jouent des rôles symétriques.
Les caractères étudiés peuvent être aussi quantitatifs que
qualitatifs.

(O. NIASS) Statistique 4 / 41


Introduction

Objectifs d’apprentissage

Sur ce chapitre ;
nous présentons les graphiques et tableaux illustrant les
liaisons entre variables plot), diagrammes-boîtes parallèles,
diagramme de profils, tableau de nuages (scatter-plot matrix)

De même, nous introduisons les notions de covariance,


coefficient de corrélation linéaire, régression linéaire, rapport
de corrélation et autres indicateurs qui lui sont liés

(O. NIASS) Statistique 5 / 41


Introduction

Préliminaires
Soit (X,Y ) une distribution statistique d’un couple de caractères
qualitatif sur une population d’effectif n. Notons (x1 , x2 , ..., xp ), et
(y1 , y2 , ..., yq ) les valeurs distinctes observées pour X et Y
ordonnées dans l’ordre croissant (p et q sont respectivement le
nombre de modalités de X et Y).
Distribution conjointe
La fréquence des observations (xi , yj ) nommée fij représente
la proportion de sujets qui possèdent simultanément les
valeurs xi et yj .

nij
Elle est obtenue par : fij = n, avec (nij l)

P P
Notez que i j fij =1

(O. NIASS) Statistique 6 / 41


Introduction

Préliminaires

Distributions marginales
L’effectif marginal de xi (respectivement deP
yj ) est égal au
nombre ni. = qj=1 nij (respectivement n.j = pi=1 nij )
P

La fréquence marginale de xi (respectivement


P de yi ) est égal
au nombre fi. = qj=1 fij (respectivement f.j = pi=1 fij )
P

(O. NIASS) Statistique 7 / 41


Deux variables qualitatives

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 8 / 41


Deux variables qualitatives Table des effectifs observés

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 9 / 41


Deux variables qualitatives Table des effectifs observés

Table de contingence

Soit (X,Y ) une distribution statistique d’un couple de caractères


qualitatif sur une population d’effectif n. Notons (x1 , x2 , ..., xp ), et
(y1 , y2 , ..., yq ) les valeurs distinctes observées pour X et Y
ordonnées dans l’ordre croissant (p et q sont respectivement le
nombre de modalités de X et Y).
Z Les résultats sont généralement représentés sous forme d’un
tableau à double entrée, appelé tableau à deux dimensions,
ou tableau croisé, ou tableau de contingence dans lequel on
dispose les modalités de X en lignes et celles de Y en
ordonnées

(O. NIASS) Statistique 10 / 41


Deux variables qualitatives Table des effectifs observés

Tableau de contingence
y1 y2 ··· yk ··· yq Total ligne Li
x1 n11 n12 ··· n1k ··· n1q n1.
.. .. .. .. .. ..
. . . . . .
xl nl1 nl2 ··· nlk ··· nlq nl.
.. .. .. .. .. ..
. . . . . .
xp np1 np2 ··· npk ··· npq np.
Total colonne Cj n.1 n.2 ··· n.k ··· n.q n

Z Les nj. et n.k sont appelés les effectifs marginaux.


Z nj. représente le nombre de fois que la modalité xj apparait,
Z n.k représente le nombre de fois que la modalité yk apparaît,
Z njk représente le nombre de fois que les modalités xj et yk
apparaissent ensemble.

(O. NIASS) Statistique 11 / 41


Deux variables qualitatives Table des effectifs observés

Tableau de contingence

Propriétés
Z Nous avons les relations suivantes :

p
X
njk = n.k avec k = 1, 2, · · · , p
j=1

q
X
nji = nj. avec j = 1, 2, · · · , p
i=1

p
X q
X p X
X q
nj. = n.k = njk = n
j=1 k =1 j=1 k =1

(O. NIASS) Statistique 12 / 41


Deux variables qualitatives Table des effectifs observés

Tableau de contingence : Exemple

Z On s’intéresse à une éventuelle relation entre le sexe de 200


personnes et la couleur des yeux. Le Tableau ci-dessous reprend
le tableau de contingence.

Bleu Vert Maron Total Li


Homme 10 50 20 80
Femme 20 60 40 120
Total Cj 30 110 60 200

(O. NIASS) Statistique 13 / 41


Deux variables qualitatives Table des effectifs observés

Tableau des fréquences


Z Le tableau de fréquences s’obtient à partir de la table de
contingence en divisant tous les effectifs par la taille de
l’échantillon n :
njk
Z fjk = n avec , j = 1, ..., p, k = 1, ..., q
Z f.k = nn.k avec k = 1, ..., q
n
Z fj. = nj. avec j = 1, ..., p
y1 y2 ··· yk ··· yq Total
x1 f11 f12 ··· f1k ··· f1q f1.
.. .. .. .. .. ..
. . . . . .
xl fl1 fl2 ··· flk ··· flq fl.
.. .. .. .. .. ..
. . . . . .
xp fp1 fp2 ··· fpk ··· fpq fp.
Total f.1 f.2 ··· f.k ··· f.q 1.00
(O. NIASS) Statistique 14 / 41
Deux variables qualitatives Table des effectifs observés

Tableau des fréquences

Exemple
Bleu Vert Maron Total
Homme 0.05 0.25 0.10 0.40
Femme 0.10 0.30 0.20 0.60
Total 0.15 0.55 0.30 1.00

(O. NIASS) Statistique 15 / 41


Deux variables qualitatives Table des effectifs observés

Profils lignes et profils colonnes

ZUn tableau de contingence s’interprète toujours en comparant


des fréquences en lignes ou des fréquences en colonnes (appelés
aussi profils lignes et profils colonnes).

Les profils lignes sont définis par


njk fjk
Z fkj = nj. = fj. avec , j = 1, ..., p, k = 1, ..., q

Les profils colonnes sont définis par


njk fjk
Z fjk = nj. = f.k avec , j = 1, ..., p, k = 1, ..., q

(O. NIASS) Statistique 16 / 41


Deux variables qualitatives Table des effectifs observés

Profils lignes et profils colonnes : Exemple

Tableau des profils lignes


Bleu Vert Maron Total
Homme 0.13 0.63 0.25 1.00
Femme 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30 1.00

Tableau des profils colonnes


Bleu Vert Maron Total
Homme 0.33 0.45 0.33 0.40
Femme 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.00 1.00

(O. NIASS) Statistique 17 / 41


Deux variables qualitatives Table des effectifs observés

Indépendance entre les variables

Tableau des profils lignes


Bleu Vert Maron Total
Homme 0.13 0.63 0.25 1.00
Femme 0.17 0.50 0.33 1.00
Total 0.15 0.55 0.30 1.00

Tableau des profils colonnes


Bleu Vert Maron Total
Homme 0.33 0.45 0.33 0.40
Femme 0.67 0.55 0.67 0.60
Total 1.00 1.00 1.00 1.00

(O. NIASS) Statistique 18 / 41


Deux variables qualitatives Table des effectifs théoriques

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 19 / 41


Deux variables qualitatives Table des effectifs théoriques

Effectifs théoriques

Z A partir des effectifs marginaux Cj et Li , on peut calculer les


effectifs théoriques lorsque X et Y sont indépendantes. Ils sont
donnés par la formule :

Li ∗ Cj
eij =
n
Z Revenons sur notre exemple
Tableau des effectifs théoriques
Bleu Vert Maron Total Li
80∗30 80∗110 80∗60
Homme 200 = 12 200 = 44 200 = 24 80
120∗30 120∗110 120∗60
Femme 200 = 18 200 = 66 200 = 36 120
Total Cj 30 110 60 200

(O. NIASS) Statistique 20 / 41


Deux variables qualitatives Coefficients d’association

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 21 / 41


Deux variables qualitatives Coefficients d’association

Coefficients d’association
Z La liste n’est pas exhaustive. Toutefois, le coefficient le plus
important est celui du khi-deux qui est utilisé pour tester
l’indépendance des deux variables à partir d’un échantillon
d’individus.
Coefficient de Khi-Deux χ2
le coefficient de Khi-Deux mesure la distance globale entre les
effectifs observés nij et les effectifs théoriques eij attendus lorsque
les deux variables sont indépendantes :
X (nij − eij )2
χ2 =
eij

Z Le coefficient est positif ou nul. S’il est égale à zéro, les


variables sont indépendantes.
Z Sa valeur augmente avec, l’intensité de la relation, n, etc. Ce
qui le rend difficile à interpréter.
(O. NIASS) Statistique 22 / 41
Deux variables qualitatives Coefficients d’association

Coefficients d’association

Coefficient de Phi-Deux φ2
Z Le coefficient φ2 est donné par la formule :

χ2
φ2 =
n
Z Il élimine l’effet de la taille n mais il dépend toujours de L et C.
Il est souvent utilisé dans le cas d’une table 2 × 2 car il est compris
entre 0 et 1.

(O. NIASS) Statistique 23 / 41


Deux variables quantitatives

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 24 / 41


Deux variables quantitatives Nuage de points

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 25 / 41


Deux variables quantitatives Nuage de points

Représentation graphique

Z Considérons des mesures X et Y (quantitatives) effectuées sur


un échantillon d’effectif n. Nous obtenons pour chaque individus i
le couple (xi , yi ) qyu représente les mesures effectuées sur le
même individu i.

Z En reportant ces valeurs sur deux axes, on construit le point


plan correspondant aux coordonnées xi et yi .
Nuage de points
Z On appelle Nuage de point l’ensemble des points plan.

(O. NIASS) Statistique 26 / 41


Deux variables quantitatives Nuage de points

Nuage de point : exemple


La représentation graphique liant la longueur et la largeur du pétale
pour les 150 iris (les iris sont des fleurs).

NB : L’aspect de ce nuage de point est important à


observer
(O. NIASS) Statistique 27 / 41
Deux variables quantitatives Nuage de points

Nuage de point : exemple

A : Corrélation non linéaire


B : Absence de liaison en moyenne
C : Corrélation linéaire
D : Absence de liaison
(O. NIASS) Statistique 28 / 41
Deux variables quantitatives Indicateurs de liaison linéaire

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 29 / 41


Deux variables quantitatives Indicateurs de liaison linéaire

Covariance
Z La covariance du couple (X , Y ) est par définition le nombre réel
noté Cov (X , Y ) qui vaut :
n
1X
Cov (X , Y ) = (xi − X̄ )(yi − Ȳ )
n
i=1

La covariance est un indicateur du sens de la variation


simultanée.
Si globalement, lorsque X croît, Y croît, alors la covariance est
positive.
Propriétés
1 Pn
Cov (X , Y ) = n i=1 xi yi − X̄ Ȳ )
Si a, b, c et d désignent quatre réels on a :
Cov (aX + b, cY + d) = a c Cov (X , Y )
(O. NIASS) Statistique 30 / 41
Deux variables quantitatives Indicateurs de liaison linéaire

Coefficient de corrélation
Soient σ(X ) et σ(Y ) les écart-types respectifs des variables x et Y .
Z Le coefficient de corrélation de Pearson noté, r (X , Y ) du
couple (X , Y ) est définie par :

Cov (X , Y )
r (X , Y ) =
σ(X )σ(Y )

Z Le coefficient de corrélation quantifie l’intensité de la liaison


linéaire entre deux variables.
Propriétés
−1 ≤ r (X , Y ) ≤ 1
Si a, b, c et d désignent quatre réels on a :
ac
r (aX + b, cY + d) = r (X , Y )
|ac|

(O. NIASS) Statistique 31 / 41


Deux variables quantitatives Indicateurs de liaison linéaire

Exercice d’application (Doucouré, edition ARIMA)

Le tableau suivant présente les poids (au Kg près) X, les tailles (au
cm près) Y, de 10 élèves âgés de neuf ans.

X 20 21 22 22 25 26 27 28 29 30
Y 115 120 117 123 130 123 132 132 128 135

1 Pn
Cov (X , Y ) = n i=1 xi yi − X̄ Ȳ ) = 19.5
Cov (X ,Y )
r (X , Y ) = σ(X )σ(Y ) = 0.884

(O. NIASS) Statistique 32 / 41


Deux variables quantitatives Indicateurs de liaison linéaire

Covariance et coefficient de corrélation linéaire

IMPORTANT
La covariance et le coefficient de corrélation ne permettent de
mettre en évidence qu’une relation linéaire entre X et Y .

Si deux variables sont statistiquement indépendantes (aucun


lien), la corrélation est nulle, mais l’inverse est faux : il peut
exister un lien autre que linéaire entre elles.

(O. NIASS) Statistique 33 / 41


Une variable quantitative et une variable qualitative

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 34 / 41


Une variable quantitative et une variable qualitative Notations et Définitions

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 35 / 41


Une variable quantitative et une variable qualitative Notations et Définitions

Une variable quantitative et une variable qualitative

Soient X est une variable qualitative à p modalités, m1 , ..., mp


et Y est une variable quantitative.

On dispose alors de p sous-populations déterminées par les p


modalités de X .

L’étude de la liaison entre X et Y consiste en l’étude des


différences entre ces sous-populations : il y aura absence de
lien si on ne distingue pas de différence notoire dans les
caractéristiques de ces différentes sous-populations.

(O. NIASS) Statistique 36 / 41


Une variable quantitative et une variable qualitative Notations et Définitions

Une variable quantitative et une variable qualitative


Notations et Définitions
Z On note Ȳ et SY2 la moyenne et la variance de Y , nk l’effectif de
la sous-population desPindividus pour lesquels X vaut
mk ( pk =1 nk = n)

(O. NIASS) Statistique 37 / 41


Une variable quantitative et une variable qualitative Notations et Définitions

Une variable quantitative et une variable qualitative

Notations et Définitions
On appelle variance résiduelle, la moyenne pondérée des
variances des sous-populations :
p
1X
SR2 = nk Sk2
n
k =1

On appelle variance expliquée par X, la moyenne pondérée


des carrés des variations des sous-populations :
p
1X
SE2 = nk (y¯k − ȳ )2
n
k =1

On montre que l’on a : sy2 = sR2 + sE2 (Exercice 3 du TD)

(O. NIASS) Statistique 38 / 41


Une variable quantitative et une variable qualitative Notations et Définitions

Visualisation
Z On utilise en général un graphique en boîtes parallèles
(box-plots). Sur un même graphique doté d’une échelle unique on
représente pour Y une boîte à moustaches pour chacune des
sous-populations définies par X .

Z La comparaison de ces boîtes donne une idée assez claire de


la liaison entre les deux variables.
(O. NIASS) Statistique 39 / 41
Une variable quantitative et une variable qualitative Indicateur de liaison

Sommaire

1 Introduction

2 Deux variables qualitatives


Table des effectifs observés
Table des effectifs théoriques
Coefficients d’association

3 Deux variables quantitatives


Nuage de points
Indicateurs de liaison linéaire

4 Une variable quantitative et une variable qualitative


Notations et Définitions
Indicateur de liaison

(O. NIASS) Statistique 40 / 41


Une variable quantitative et une variable qualitative Indicateur de liaison

Indicateur de liaison : le rapport de corrélation

Définition
le rapport de corrélation est la part de variations de Y expliquée par
X dans la variation totale de Y.
SE2
e2 =
SY2

Propriétés
e2 est compris entre 0 et 1
e2 est d’autant plus grand que le lien est fort.

(O. NIASS) Statistique 41 / 41

Vous aimerez peut-être aussi