0% ont trouvé ce document utile (0 vote)
43 vues22 pages

CHAPbivarie

Transféré par

Younelo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
43 vues22 pages

CHAPbivarie

Transféré par

Younelo
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse Statistique bivariée

 Données : X et Y deux v.a. observées sur n u.s


 Objectif : mettre en évidence une éventuelle
variation de X et Y

La liaison

causale
Non causale

v.cible Expl. V.explicatives

Éliminer
Éviter les
Les v.expli.
redondances
Sans effet
Sur la
v.cible
Pr. Hasna CHAMLAL 19
I. Cas de deux v.a. quantitatives
1. Exemple :
● X : dépenses mensuelles en publicité
●Y : ventes mensuelles
Visualisation des données : nuage de points(Diagramme
de dispersion, scatter plot)

Lien positif
entre les deux
variables

publicité

Pr. Hasna CHAMLAL 20


Intérêt : idée sur la modélisation Y=f(X) ou X=f(Y).
2. Mesure de corrélation
But : quantifier la liaison entre X et Y.
Le coefficient de covariance
  
n
• 1
Déf : cov( X , Y )  c XY   Y ( wi )  Y X ( wi )  X
n i 1

1 n
 [  Y ( wi ) X ( wi )]  Y  X
n i 1
 CXY est une forme bilinéaire symétrique, la forme quadratique
associée est la var :
• Propriètés et Remarques :
Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
 Inégalité de Cauchy schwartz :

(Cov( X , Y )) 2  Var ( X )Var (Y )


 CXY dépend des unités de mesures.
 La covariance sera positive (négative) s’il existe une relation
croissante (décroissante) entre les 2 variables.
Le coefficient de corrélation linéaire
 étude numérique de la manière dont les deux v.a varient
simultanément.
Pr. Hasna CHAMLAL 21
• Déf.
c
cor( X ,Y )  r  s XY où s  0, s  0
XY X sY X Y
• Propriétés :
 X  X Y Y  X  X
rXY  cov , , ( : v.c.r )
 rXY
 sX sY  s X
ne dépend pas des unités de mesure

rXY  1
=0 =1
Il existe (a,b,c) tq :
Indépendance linéaire
(nuage de pts circulaire
rXY aX+bY+c=0
Ou // à un des axes) (nuage de pts rect.)
sinon

Tester la signification
de rXY

Pr. Hasna CHAMLAL 22


Seuil critique r (  n  2,  ) pour un coefficient de corrélation simple

Pr. Hasna CHAMLAL 23


Interprétation d’un rXY :
• Si r est significatif alors :
□ 100|r|% des variations de X(resp. Y) sont
contrôlées par Y(resp. X),
□ Le signe de r sens de variation
• Une liaison non linéaire n’est pas mesurée par r.

r>0 r<0 Pas de corr. mais


r significatif
dépendance

Indépendance linéaire

Pr. Hasna CHAMLAL 24


II. Cas de deux variables qualitatives
1. Les données et leur présentation
x1 y1
x2 y2

X Y

xr yc
y1 … yj ..yc total
x1 n1.
… c
nl .   nlj l  1; r
xl nlj nl. j 1
r Effectifs marginaux
.. n.h   nih h  1; c
i 1
xr nlh : effectif conjoint ((l  1; r) (h  1; c))
total n.j n

Pr. Hasna CHAMLAL 25


2. Exemple: Enquête auprès de 200 étudiants
• Variable X: Provenance des étudiants,
3 modalités: R1;R2;R3 (3 régions).
• Variable Y : Choix de l'université
 3 modalités: U1;U2;U3 (3 universités).
• Tableau de contingence:

Pr. Hasna CHAMLAL 26


3. Tableau des fréquences relatives F
n jk
f jk  j  1; r k  1; c
n

• Les fréquences relatives marginales sont données par:


n j.
f j.  j  1; r
n
n. k
f .k  k  1; c
n
• Remarquons que:
• f jk est une estimation de P(X=j,Y=k)

• f j. est une estimation de P(X=j)

• f .k est une estimation de P(Y=k)

Pr. Hasna CHAMLAL 27


• Exemple :

4. Tableaux des fréquences conditionnelles


a. Tableau des profils-lignes:
• Proportion des individus présentant la modalité k de Y parmi les
individus ayant la modalité j de X

Pr. Hasna CHAMLAL 28


 estimation de la probabilité conditionnelle:
P(Y=k/X=j)
Exemple :

b. Tableau des profils-colonnes:


Proportion des individus présentant la modalité j de X parmi les individus
ayant la modalité k de Y

Pr. Hasna CHAMLAL 29


 estimation de la probabilité conditionnelle :
P(X=j/Y=k)
Exemple :

Pr. Hasna CHAMLAL 30


4. Situation d'indépendance
Si 2 variables aléatoires X et Y sont indépendantes,
alors
j  1,2,.., r et k  1,2,.., c:
a. P ( X  j , Y  k )  P ( X  j ) P (Y  k )
b. P (Y  k / X  j )  P (Y  k )
c. P ( X  j / Y  k )  P ( X  j )
• L’échantillon de taille n nous permet d'estimer ces
quantités, dès lors sous l'hypothèse d'indépendance,
on devrait avoir :
a. f jk  f j . f.k ( j , k )  1,..., r 1,2,..., c
f jk
b. f k / j   f .k j , k
f j.
f jk
c. f j / k   f j. j , k
f .k
Ainsi tous les proils-lignes et les proils-colonnes sont pratiquement
égaux.
Pr. Hasna CHAMLAL 31
• On définit donc les fréquences théoriques vérifiant l’hypothèse
d’indépendance :

• Exemple :
Effectifs et effectifs théoriques

Pr. Hasna CHAMLAL 32


5. Représentation graphique des deux profils

1000

3,5
800
3,0

2,5

600 2,0

1,5

1,0

Occurrences
400 VAR00
,5
satisfaction
0,0
Occurrences

1 2

200 Pas très heureux


VAR00001

Plutôt heureux Exemple d’indépendance


0 Très heureux
Homme Femme

Sexe du répondant
Exemple de dépendance

6. La matrice des écarts à l’indépendance :


E=N-N*=(ejk)
Où N est la matrice des effectifs observées et N* la matrice des effectifs
théoriques en situation d’indépendance.

Pr. Hasna CHAMLAL 33


• Exemple :

Pr. Hasna CHAMLAL 34


• Interprétations :
ejk>0↔njk>n*jk ↔ fjk>f*jk

→ On dit que les modalités j de X et k de Y s’attirent

ejk<0↔njk<n*jk ↔ fjk<f*jk
→ On dit que les modalités j de X et k de Y se repoussent
Exemple : Les modalités R2 et U3 s’attirent fortement alors que les
modalités R2 et U1 se repoussent fortement.
7. Mesure d’association
Déf: khi-deux de contingence :
2
 nl . n.h 
 lh
n  
   
r c
n
2
l 1 h 1
nl . n.h
n
 r
 n  
c
nlh 
2
 1

 l 1 h 1 nl . n.h 
Pr. Hasna CHAMLAL 35
Remarques :
• Le khi-deux de contingence est positif
• Test de signification :
On rejette l'hypothèse d'indépendance entre X et Y avec une erreur
de 1ière espèce de α% si :

Exemple :
 2 2
( r 1)( c 1);1

 2  38.7692
Sous H 0 :  2   42 ;
Règle de comporteme nt :
au niveau   1% ;  42;0.99  13.28

Donc on conclut au rejet de l’hypothèse nulle c’est qu’il y’a


dépendance entre les régions et le choix de l’université.

Pr. Hasna CHAMLAL 36


• Le khi-deux de contingence n’est pas majoré
 max
2
 nmin r , c   1
 On peut déduire la quantité V de Cramer :
2
V
 max
2

Qui permet d’évaluer l’intensité de la liaison de deux variables


qualitatives sans avoir recours à une table statistique.
Cette quantité intègre le nombre de degré de liberté par l’intermédiaire
de  max
2

V intensité
0 Nulle
0-0.2 Faible
0.2-0.4 Moyenne
0.4-0.7 Forte
0.7-1 Très forte
1 parfaite
Pr. Hasna CHAMLAL 37
III. Cas d’une variable qualitative et d’une quantitative
1) Données et notations
X : v.a. qualitative supposée à r modalités notées : x1,..,xl,…,xr.
Y : v.a. quantitative.

El    E / X    xl 
sous échantillon d’individu possédant xl
nl : |El|
Yl : Y El restriction de Y à El.

Yl 
1
nl
 Y  ;  l
2

1
nl
 Y    Y 
l
2

 El El

Par exemple :
Y : le salaire et X : le niveau de diplôme

Y X  bachelier
:le salaire moyen pour un
travailleur ayant un diplôme de bachelier

Pr. Hasna CHAMLAL 38


2) Étude de la liaison
a. Représentation graphique : Boîtes parallèles
24 12,5

22
12,0

20

11,5
18

16 11,0

14
10,5

12
VAR00003

VAR00002
10,0
10

8 9,5
N= 3 3 N= 3 3

1 2 1 2

VAR00001 VAR00001

Exemple : Cas de présence de liaison Exemple : Cas d’absence de liaison

b. Mesure de l’intensité de la dépendance de Y en X


• Formules de décomposition
r
1
Y 
n
n Yl 1
l l

 n Y 
r 2 r
1 1
Y  Y  n
2 2
l l l l
n l 1 n l 1

E  R
2 2

Pr. Hasna CHAMLAL 39


 donnent une décomposition de la moyenne et de la variance de
Y sur la partition définie par X.
E : 2
Variance expliquée (ou interclasse)

 R2 : Variance résiduelle (ou intra classe)


Rapport de corrélation
C’est un indice de liaison entre X et Y défini par :

 E2
Y / X 2 
Y 2
Interprétation : pourcentage de la variance expliquée par la
connaissance de la variable X.
 Propriétés :
 0  Y / X  1
2

 Y / X  0   E  0  Y 1  ...  Yr  Y
2 2

absence de liaison
 Y / X  1   R  0  les individus de chaque classe ont une même valeur
2 2

 plus Y / X est proche de 1 plus Y explique bien X.


2

40

Vous aimerez peut-être aussi