Analyse Statistique bivariée
Données : X et Y deux v.a. observées sur n u.s
Objectif : mettre en évidence une éventuelle
variation de X et Y
La liaison
causale
Non causale
v.cible Expl. V.explicatives
Éliminer
Éviter les
Les v.expli.
redondances
Sans effet
Sur la
v.cible
Pr. Hasna CHAMLAL 19
I. Cas de deux v.a. quantitatives
1. Exemple :
● X : dépenses mensuelles en publicité
●Y : ventes mensuelles
Visualisation des données : nuage de points(Diagramme
de dispersion, scatter plot)
Lien positif
entre les deux
variables
publicité
Pr. Hasna CHAMLAL 20
Intérêt : idée sur la modélisation Y=f(X) ou X=f(Y).
2. Mesure de corrélation
But : quantifier la liaison entre X et Y.
Le coefficient de covariance
n
• 1
Déf : cov( X , Y ) c XY Y ( wi ) Y X ( wi ) X
n i 1
1 n
[ Y ( wi ) X ( wi )] Y X
n i 1
CXY est une forme bilinéaire symétrique, la forme quadratique
associée est la var :
• Propriètés et Remarques :
Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
Inégalité de Cauchy schwartz :
(Cov( X , Y )) 2 Var ( X )Var (Y )
CXY dépend des unités de mesures.
La covariance sera positive (négative) s’il existe une relation
croissante (décroissante) entre les 2 variables.
Le coefficient de corrélation linéaire
étude numérique de la manière dont les deux v.a varient
simultanément.
Pr. Hasna CHAMLAL 21
• Déf.
c
cor( X ,Y ) r s XY où s 0, s 0
XY X sY X Y
• Propriétés :
X X Y Y X X
rXY cov , , ( : v.c.r )
rXY
sX sY s X
ne dépend pas des unités de mesure
rXY 1
=0 =1
Il existe (a,b,c) tq :
Indépendance linéaire
(nuage de pts circulaire
rXY aX+bY+c=0
Ou // à un des axes) (nuage de pts rect.)
sinon
Tester la signification
de rXY
Pr. Hasna CHAMLAL 22
Seuil critique r ( n 2, ) pour un coefficient de corrélation simple
Pr. Hasna CHAMLAL 23
Interprétation d’un rXY :
• Si r est significatif alors :
□ 100|r|% des variations de X(resp. Y) sont
contrôlées par Y(resp. X),
□ Le signe de r sens de variation
• Une liaison non linéaire n’est pas mesurée par r.
r>0 r<0 Pas de corr. mais
r significatif
dépendance
Indépendance linéaire
Pr. Hasna CHAMLAL 24
II. Cas de deux variables qualitatives
1. Les données et leur présentation
x1 y1
x2 y2
X Y
xr yc
y1 … yj ..yc total
x1 n1.
… c
nl . nlj l 1; r
xl nlj nl. j 1
r Effectifs marginaux
.. n.h nih h 1; c
i 1
xr nlh : effectif conjoint ((l 1; r) (h 1; c))
total n.j n
Pr. Hasna CHAMLAL 25
2. Exemple: Enquête auprès de 200 étudiants
• Variable X: Provenance des étudiants,
3 modalités: R1;R2;R3 (3 régions).
• Variable Y : Choix de l'université
3 modalités: U1;U2;U3 (3 universités).
• Tableau de contingence:
Pr. Hasna CHAMLAL 26
3. Tableau des fréquences relatives F
n jk
f jk j 1; r k 1; c
n
• Les fréquences relatives marginales sont données par:
n j.
f j. j 1; r
n
n. k
f .k k 1; c
n
• Remarquons que:
• f jk est une estimation de P(X=j,Y=k)
• f j. est une estimation de P(X=j)
• f .k est une estimation de P(Y=k)
Pr. Hasna CHAMLAL 27
• Exemple :
4. Tableaux des fréquences conditionnelles
a. Tableau des profils-lignes:
• Proportion des individus présentant la modalité k de Y parmi les
individus ayant la modalité j de X
Pr. Hasna CHAMLAL 28
estimation de la probabilité conditionnelle:
P(Y=k/X=j)
Exemple :
b. Tableau des profils-colonnes:
Proportion des individus présentant la modalité j de X parmi les individus
ayant la modalité k de Y
Pr. Hasna CHAMLAL 29
estimation de la probabilité conditionnelle :
P(X=j/Y=k)
Exemple :
Pr. Hasna CHAMLAL 30
4. Situation d'indépendance
Si 2 variables aléatoires X et Y sont indépendantes,
alors
j 1,2,.., r et k 1,2,.., c:
a. P ( X j , Y k ) P ( X j ) P (Y k )
b. P (Y k / X j ) P (Y k )
c. P ( X j / Y k ) P ( X j )
• L’échantillon de taille n nous permet d'estimer ces
quantités, dès lors sous l'hypothèse d'indépendance,
on devrait avoir :
a. f jk f j . f.k ( j , k ) 1,..., r 1,2,..., c
f jk
b. f k / j f .k j , k
f j.
f jk
c. f j / k f j. j , k
f .k
Ainsi tous les proils-lignes et les proils-colonnes sont pratiquement
égaux.
Pr. Hasna CHAMLAL 31
• On définit donc les fréquences théoriques vérifiant l’hypothèse
d’indépendance :
• Exemple :
Effectifs et effectifs théoriques
Pr. Hasna CHAMLAL 32
5. Représentation graphique des deux profils
1000
3,5
800
3,0
2,5
600 2,0
1,5
1,0
Occurrences
400 VAR00
,5
satisfaction
0,0
Occurrences
1 2
200 Pas très heureux
VAR00001
Plutôt heureux Exemple d’indépendance
0 Très heureux
Homme Femme
Sexe du répondant
Exemple de dépendance
6. La matrice des écarts à l’indépendance :
E=N-N*=(ejk)
Où N est la matrice des effectifs observées et N* la matrice des effectifs
théoriques en situation d’indépendance.
Pr. Hasna CHAMLAL 33
• Exemple :
Pr. Hasna CHAMLAL 34
• Interprétations :
ejk>0↔njk>n*jk ↔ fjk>f*jk
→ On dit que les modalités j de X et k de Y s’attirent
ejk<0↔njk<n*jk ↔ fjk<f*jk
→ On dit que les modalités j de X et k de Y se repoussent
Exemple : Les modalités R2 et U3 s’attirent fortement alors que les
modalités R2 et U1 se repoussent fortement.
7. Mesure d’association
Déf: khi-deux de contingence :
2
nl . n.h
lh
n
r c
n
2
l 1 h 1
nl . n.h
n
r
n
c
nlh
2
1
l 1 h 1 nl . n.h
Pr. Hasna CHAMLAL 35
Remarques :
• Le khi-deux de contingence est positif
• Test de signification :
On rejette l'hypothèse d'indépendance entre X et Y avec une erreur
de 1ière espèce de α% si :
Exemple :
2 2
( r 1)( c 1);1
2 38.7692
Sous H 0 : 2 42 ;
Règle de comporteme nt :
au niveau 1% ; 42;0.99 13.28
Donc on conclut au rejet de l’hypothèse nulle c’est qu’il y’a
dépendance entre les régions et le choix de l’université.
Pr. Hasna CHAMLAL 36
• Le khi-deux de contingence n’est pas majoré
max
2
nmin r , c 1
On peut déduire la quantité V de Cramer :
2
V
max
2
Qui permet d’évaluer l’intensité de la liaison de deux variables
qualitatives sans avoir recours à une table statistique.
Cette quantité intègre le nombre de degré de liberté par l’intermédiaire
de max
2
V intensité
0 Nulle
0-0.2 Faible
0.2-0.4 Moyenne
0.4-0.7 Forte
0.7-1 Très forte
1 parfaite
Pr. Hasna CHAMLAL 37
III. Cas d’une variable qualitative et d’une quantitative
1) Données et notations
X : v.a. qualitative supposée à r modalités notées : x1,..,xl,…,xr.
Y : v.a. quantitative.
El E / X xl
sous échantillon d’individu possédant xl
nl : |El|
Yl : Y El restriction de Y à El.
Yl
1
nl
Y ; l
2
1
nl
Y Y
l
2
El El
Par exemple :
Y : le salaire et X : le niveau de diplôme
Y X bachelier
:le salaire moyen pour un
travailleur ayant un diplôme de bachelier
Pr. Hasna CHAMLAL 38
2) Étude de la liaison
a. Représentation graphique : Boîtes parallèles
24 12,5
22
12,0
20
11,5
18
16 11,0
14
10,5
12
VAR00003
VAR00002
10,0
10
8 9,5
N= 3 3 N= 3 3
1 2 1 2
VAR00001 VAR00001
Exemple : Cas de présence de liaison Exemple : Cas d’absence de liaison
b. Mesure de l’intensité de la dépendance de Y en X
• Formules de décomposition
r
1
Y
n
n Yl 1
l l
n Y
r 2 r
1 1
Y Y n
2 2
l l l l
n l 1 n l 1
E R
2 2
Pr. Hasna CHAMLAL 39
donnent une décomposition de la moyenne et de la variance de
Y sur la partition définie par X.
E : 2
Variance expliquée (ou interclasse)
R2 : Variance résiduelle (ou intra classe)
Rapport de corrélation
C’est un indice de liaison entre X et Y défini par :
E2
Y / X 2
Y 2
Interprétation : pourcentage de la variance expliquée par la
connaissance de la variable X.
Propriétés :
0 Y / X 1
2
Y / X 0 E 0 Y 1 ... Yr Y
2 2
absence de liaison
Y / X 1 R 0 les individus de chaque classe ont une même valeur
2 2
plus Y / X est proche de 1 plus Y explique bien X.
2
40