0% ont trouvé ce document utile (0 vote)
46 vues15 pages

Chapitre 5

L'analyse factorielle des correspondances (AFC) est une méthode statistique exploratoire qui permet d'analyser les relations entre deux variables qualitatives à partir d'un tableau de contingence. Elle vise à réduire la dimensionnalité des données tout en préservant l'inertie totale, facilitant ainsi l'identification des associations entre catégories. Le processus implique plusieurs étapes, y compris la transformation des données, la représentation graphique et l'étude de la dépendance entre les variables.

Transféré par

sia.nounou.af
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
46 vues15 pages

Chapitre 5

L'analyse factorielle des correspondances (AFC) est une méthode statistique exploratoire qui permet d'analyser les relations entre deux variables qualitatives à partir d'un tableau de contingence. Elle vise à réduire la dimensionnalité des données tout en préservant l'inertie totale, facilitant ainsi l'identification des associations entre catégories. Le processus implique plusieurs étapes, y compris la transformation des données, la représentation graphique et l'étude de la dépendance entre les variables.

Transféré par

sia.nounou.af
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

1.

INTRODUCTION

Université Abderrahmane Mira, Béjaia


Niveau: Licence 3 RO Année universitaire: 2024/2025
Module: Analyse exploratoire de données

Chapitre 5: Analyse factorielle des correspondances et analyse factorielle des correspondances multiples

1 Introduction
L’analyse factorielle des correspondances vise à rassembler en un nombre réduit de dimensions la plus grande partie
de l’information initiale en s’attachant aux correspondances entre les variables, c’est-à-dire aux valeurs relatives. Cette
réduction est d’autant plus utile que le nombre de dimensions initial est élevé. La notion de “ réduction ” est commune
à toutes les techniques factorielles -c’est-à-dire où l’on extrait des facteurs - l’AFC offre la particularité (contrairement
aux ACP) de fournir un espace de représentation commun aux variables et aux individus.

1.1 Analyse factorielle des correspondances (A.F.C) et application


L’analyse Factorielle des Correspondances (AFC) est une méthode d’analyse statistique exploratoire utilisée pour anal-
yser les relations entre les lignes et les colonnes d’un tableau de contingence. Elle vise à identifier des associations ou
des correspondances entre catégories d’observations.
C’est est une méthode qui permet d’étudier l’association entre deux variables qualitatives. Cette méthode est basée sur
l’inertie.

1.2 Objectif de l’AFC


Le but de l’Analyse Factorielle des Correspondances consiste à représenter un maximum de l’inertie totale sur le premier
axe factoriel, un maximum de l’inertie résiduelle sur le second axe, et ainsi de suite jusqu’à la dernière dimension.

1.3 Fondements théoriques de la méthode AFC


L’application de l’AFC se fait en plusieurs étapes:
1. Transformation du tableau des données de contingence pour obtenir le tableau des profils-lignes, ou le tableau
des profils-colonnes.
2. Représentation graphique du nuage des profils-lignes et du nuage des profils-colonnes.
3. Étudier la dépendance, voir l’indépendance, entre les deux variables X et Y se fait à travers l’utilisation de la
méthode ACP sur le tableau des données des profils-lignes, ou bien sur les le tableau des profils-colonnes.

2 Bases et formules mathématiques de l’AFC


2.1 Tableaux de contingence : définition et construction

Définition 2.1.1
Un tableau de contingence est un tableau croisant deux variables qualitatives, une representé par des lignes et
l’autre par des colonnes, avec des effectifs ou fréquences.

Soient deux variables qualitatives X et Y avec k et p modalités respectivement. Les deux variables sont observées sur
un échantillon de n individus. Le tableau de contingence (tableau croisé) prend la forme suivante:
Tels que :
• nij : Effectif commun à la ligne i et la colonne j (la répartition des effectifs communs est appelée distribution
conjointe)
k
X
• ni. = nij : Effectif marginal de la iième ligne (ditribtion marginale -ligne)
i=1

1
X/Y y1 y2 ............ yj ...... yp Total
x1 n11 n12 ...... n1j ...... n1p n1.
x2 n21 n22 ......... n2j ...... n2p n2.
. . . .. ...
xi ni1 ...... nij . . . .. nip ni.
...... ......
xk nk1 nkj nkp nk.
Total n.1 n·2 ...... n.j ...... n.p n

Table 1: Tableau de contingence

k
X
• n.j = nij : Effectif marginal de la jième colonne (distribution marginale-colonne)
i=1

k
X p
X
• n= ni. = n.j : Effectif total
i=1 j=1

Exemple 2.1

2.2 Notions de fréquence relative, profils ligne et colonne


2.2.1. Tableau de fréquence relative

X/Y y1 y2 ··· yj ··· yp Total

n11 n12 n1j n1p n1.


x1 ··· ···
n n n n n
n21 n22 n2j n2p n2.
x2 ··· ···
n n n n n

··· ···

ni1 nij nip ni.


xi ··· ···
n n n n

··· ···

nk1 nkj nkp nk.


xk
n n n n
n.1 n.2 n.j n.p n
Total ··· =1
n n n n n
Table 2: Tableau des fréquences relatives

Définition 2.2.1
Est une tableau où chaque cellule est transformée en proportion de l’ensemble des observations. En d’autre
nij
terme, l’effectif nij va devenir tel que n est l’effectif total. Le tableau 2 donne un aperçu des fréquences
n
relatives. On notera sa matrice par F = (fij ).

Exemple 2.2.1

2
2.2.2. Profils-lignes
On entend par profil ligne, les fréquences empiriques des modalités de la variable Y , il s’obtient en divisant l’effectif de
chaque modalité par le total de la ligne correspondante. Le profil-ligne de la ième ligne se calcule selon la formule
 
nij
P Li = : profil de la iième ligne
ni

Ci-dessous le tableau des profils lignes (noté PL).

X/Y y1 y2 ......... yj . . .. yp Total

n11 n12 n1j n1p


x1 ...... ...... 1
n1. n1. n1. n1.

n21 n22 n2j n2p


x2 ......... . . . . . .. 1
n2. n2. n2. n2.

... ...

ni1 nij nip


xi ...... ...... 1
ni. ni. ni.

. . .. ......

nk1 nkj nkp


xk 1
nk. nk. nk.

Profils- n.1 n.2 n.j n.p


...... 1
moyens n n n n

Table 3: Profils-lignes

Le profil-ligne en pourcentage du tableau 4 s’obtient par la formule


 
nij
P Li = × 100 : ième profil ligne
ni.

X/Y y1 y2 ··· yj ··· yp Total

n11 n12 n1j n1p


x1 × 100 × 100 ··· × 100 ··· × 100 100
n1. n1. n1. n1.
n21 n22 n2j n2p
x2 × 100 × 100 ··· × 100 ··· × 100 100
n2. n2. n2. n2.

... ...

ni1 nij nip


xi × 100 ··· × 100 ··· × 100 100
ni. ni. ni.

··· ···

nk1 nkj nkp


xk × 100 × 100 × 100 100
nk. nk. nk.

Table 4: Profils-lignes en pourcentages

Exemple 2.2.2.

3
2.2.3. Profils-Colonnes
On entend par profil-colonne, les fréquences empiriques des modalités de la variable X , il s’obtient en divisant l’effectif
de chaque modalité par le total de colonne correspondant. Le profil colonne de la j ième colonne se calcule par la formule
nij
P Cj =
n.j

Le tableau 5 représente le tableau des profils-colonnes (noté P C).


Le profil-colonne en pourcentage illustré par le tableau 6 s’obtient par la formule
nij
P Cj = × 100 : j ème profil colonne
n.j

4
X/Y y1 y2 ··· yj ··· yp Profils moyens

n11 n12 n1j n1p n1.


x1 ··· ···
n.1 n.2 n.j n.p n

n21 n22 n2j n2p n2.


x2 ··· ···
n.1 n.2 n.j n.p n
··· ···

ni1 nij nip ni.


xi ··· ···
n.1 n.j n.p n
··· ···

nk1 nkj nkp nk.


xk
n.1 nj n.p n
Total 1 1 ··· 1 ··· 1 1

Table 5: Profils-Colonnes

X/Y y1 y2 ··· yj ··· yp Profils moyens

n11 n12 n1j n1p n1.


x1 × 100 × 100 ··· × 100 ··· × 100
n.1 n.2 n.j n.p n

n21 n22 n2j n2p n2.


x2 × 100 × 100 ··· × 100 ··· × 100 × 100
n.1 n.2 n.j n.p n

... ....

ni1 nij nip ni.


xi × 100 ··· × 100 .... × 100 × 100
n.1 n.j n.p n

··· ···

nk1 nkj nkp nk.


xk × 100 × 100 × 100 × 100
n.1 nj n.p n

Total 100 100 ...... 100 ..... 100 100

Table 6: Profils-Colonnes en pourcentages

5
Exemple 2.2.3:

2.2.4. Tableau des fréquences théoriques


Ce tableau est construit à partir des fréquences marginales (les fréquences marginales se calculent en faisant la somme
pour chaque ligne et chaque colonne du tableau de fréquence).
Le tableau est rempli en utilisant la formule fijth = fi· × fj·

X/Y y1 y2 ... yj ... yp Total


x1 f1. × f.1 f1. × f.2 ... f1. × f.j ... f1. × f.p f1.
..
x2 f2. × f.1 f2. × f.2 ... f2. × f.j . f2. × f.p f2.
.. .. .. .. .. .. .. ..
. . . . . . . .
xi fi. × f.1 ··· fi. × f.j ... fi. × f.p fi.
.. .. .. .. .. .. ..
. . . . . . . ...
xk fk. × f.1 fk. × f.j fk. × f.p fk.
Total f.1 f·2 ...... f.j ... f.p n

Table 7: Tableau de fréquence théorique

Exemple 2.2.4.

2.2.4. Formulation matricielle des tableaux des profils-lignes & tableau des profils-colonnes, des fréquences
relatives, de fréquence théoriques et matrice des écarts réduits
Soit le tableau de contingence de k lignes et p colonnes représenté par la matrice X d’ordre k × p
 
n11 n12 · · · n1j n1p
 n21 n22 · · · n2j n2p 
 
 .. .. .. .. .. 
X= .  . . . . 
 .. 
 ni1 ni2 · · · nij . 
nk1 nk2 · · · nkj nkp

On définit une matrice diagonale des totaux marginaux des lignes Dtl , et une matrice diagonale des totaux marginaux
des colonnes Dtc    
n1. 0 0 0 n.1 0 0 0
 0 n2. · · · 0   0 n.2 · · · 0 
Dtl =  . et Dtc =  .
   
. .
. .
. .
.  . .. .. .. 
 . . . .   . . . . 
0 0 · · · nk. 0 0 · · · n.p
La formulation matricielle du tableau de profils-lignes s’écrit:
 n11 n12 n1j n1p 
···
 n1. n1. n1. n1. 
 
n n22 n2j n2p 
 

1
  21
  ···
n11 n12 ··· n1j n1p

0 0 0   n2. n2. n2. n2. 
n1. n21 n22 ··· n2j n2p  
 
 1    

0 ··· 0 
 .. .. ..   .. .. .. 
. . ··· ··· .   . . ··· ··· . 

−1 n2.

Xpl = Dpl X =   = n i1 ni2 nij nip 
 .. .. .. ..   ni1 ni2 ··· nij nip  
  ··· 

 . . . . 


.. .. .. .. ..   n i. ni. ni. ni. 
.. 1  . . . . .  
 
0 0 .
 
nk1 nk2 · · · nkj nkp  .. .. .. .. .. 
 
nk.
 . . . . . 
 
 
 nk1 nk2 nkj nkp 
···
nk. nk. nk. nk.
La formulation matricielle du tableau de profils-colonnes s’écrit :

6
 n11 n12 n1j n1p 
 n.1 n.1 n.1 n.1 
  
1
 
n11 n12 n1j n1p  n21 n22 n2j n2p 
 
0 0 ···
 n.1   n21 n22 ··· n2j n2p   n.2 n.2 n.2 n.2 

1 ..  
. .. .. 
 
 . .. ..  
  ..   ..
 0 . 0 
−1

n.2 . ··· ··· .
 . ··· ··· . 
Xpc = Dpc X =  = n nij nip 

 . .. ..

..    i1 ni2
 ..
 ni1 ni2 ··· nij nip ···
. . . 

  n.i n.i n.i n.i 
  
 . .. .. .. ..
1   ..

.. . . . .
   
0 0 .  .

n.p nk1 nk2 ··· nkj nkp  . .. .. .. .. 
 . . . . . 

 nk1 nk2 nkj nkp 
···
n.p n.p n.p n.p

La formulation matricielle du tableau des fréquences relatives est donné par


 
f11 f12 · · · f1p
 f21 f22 · · · f2p 
 
 .. .. .. .. 
1  . . . . 
F = X=  
n  fi1 fi2 · · · fip


 .. .. .. .. 
 . . . . 
fk1 fk2 · · · fkp

La formulation matricielle du tableau des fréquences théoriques est donné par


 
f1· × f·1 f1· × f·2 · · · f1· × f·p
 f2· × f·1 f2· × f·2 · · · f2· × f·p 
 
 .. .. .. .. 
th
 . . . . 
F =  
 i·f × f·1 fi· × f·2 · · · fi· × f·p 

 .. .. .. .. 
 . . . . 
fk· × f·1 fk· × f·2 · · · fk· × f·p

Exemple 2.2.4.

2.2.5. Matrice des écarts réduits (ou matrice centrée réduite):


La matrice des écarts réduits Z, représente les écarts entre les fréquences relatives et théoriques divisé par la racine
fij − fijth
carrée de la fréquence théorique: zij = q .
fijth
Exemple 2.2.5.

2.2.6. Liaison entre les variables qualitatives


• Distance khi-deux: Étudier la liaison entre deux variables qualitatives revient à étudier l’écart ou la distance
entre les données observées et une situation théorique d’indépendance. Cette situation théorique correspond au
tableau théorique calculé par la formule fijth = fi· × fj· .

p
k X
X (fij − fijth )2
Puis on calcule la statistique χ2 pour toutes les variables selon la formule χ2 = qui
i=1 j=1
fijth
représente la somme des carrées des éléments de la matrice des écarts réduits Z.

• Hypothèse d’indépendance :
Le test de χ2 est définit par:

H0 : Les deux variables sont indépendantes
H1 : Les deux variables sont dépendantes

7
La statistique du test est définie par :
 2
p
k X
X fij − fijth
d2 = χ2 =
i=1 j=1
fijth
 
En outre, le d2 suit une loi du χ2 de paramètre v d2 → χ2 (v) où v = (k − 1)(p − 1), avec k le nombre de
modalités de la variable X et p le nombre de modalités de la variable Y.

On rejettera l’hypothèse d’indépendance à un risque d’erreur α si d2 est supérieur à la valeur critique dans la table
de χ2v,α .

Exemple 2.2.6.

2.2.5. Le nuage des profils-lignes (ou profils colonnes)


Il est à noter que les profils-lignes seront représentés dans Rp (i.e. le nuage profils-lignes comporte p points). Selon la
nature de relation entre X et Y , on distingue deux cas:
• Si les deux variables X et Y sont indépendantes, alors les profils-lignes sont égaux et les p points profils-lignes
sont identiques, ce qui donne un seul point;

• Si les deux variables X et Y sont dépendantes, alors nous ferons appel à la méthode ACP pour étudier cette
dépendance. De ce fait, les modalités de la variable X sont considérées comme des individus. Chaque individu
ni.
est affecté d’un poids fi. = pour faire apparaitre son importance dans l’échantillon. En outre, l’application
n
de l’ACP nécessite la définition d’une métrique qui permet de mesurer la distance entre deux profils-lignes.

2.2.6. Analyse en composantes principales des profils lignes et colonnes


Faire une AFC sur la matrice de données X revient à appliquer 2 ACP, une sur la matrice profil lignes Xpl et l’autre sur
la matrice profil colonnes Xpc .
1. Analyse en composante principales des profiles lignes

L’analyse va se porter sur le tableau des profils-lignes en considérant les modalités de la variables X étant des
ni.
individus, ce qui donne un nuage des profils-lignes de p points, chaque individu est affecté d’un poids fi = .
n
Les étapes à suivre sont les suivantes:

• Étape 1: Calculer les fréquences relatives;


• Étape 2: Calculer les fréquences théoriques;
• Étape 3: Calculer la matrice des écarts réduit Z;
• Étape 4: Calculer la distance de χ2 et vérifier si les variables sont dépendantes;
 
f1· 0 · · · 0
 0 f2· · · · 0 
• Étape 5: Calculer la matrice à diagonaliser L = ZDpc −1 Z t où D =  
pc  .. .. .. .. 
 . . . . 
0 0 ··· fk·
• Étape 6: Diagonaliser la matrice L, afin de trouver ses valeurs propres λi et ses vecteurs propres →

vi , i =
1, ..., k
−→ −→
• Étape 7: Projection des modalités de Y sur les axes factoriels retenus CPi = Z t Wi , où Wi est le vecteur
propre unitaire à la valeur propre λi .

2. Analyse en composante principales des profils colonnes

L’analyse va se porter sur le tableau des profils-colonnes en considérant les modalités de la variables Y étant
des individus, ce qui donne un nuage des profils-colonnes de p points, chaque individu est affecté d’un poids
n.j
fj = . Les étapes à suivre sont les suivantes:
n
• Étape 1: Calculer les fréquences relatives;

8
• Étape 2: Calculer les fréquences théoriques;
• Étape 3: Calculer la matrice des écarts réduit Z;
• Étape 4: Calculer la distance de χ2 et vérifier si les variables sont dépendantes;
 
f·1 0 · · · 0
 0 f·2 · · · 0 
−1
• Étape 5: Calculer la matrice à diagonaliser C = Z t Dpl Z où Dpc =  .
 
.. .. ..
 ..

. . . 
0 0 ··· f·p
• Étape 6: Diagonaliser la matrice C, afin de trouver ses valeurs propres λk et ses vecteurs propres →

vk , k =
1, ..., p
−→ −→
• Étape 7: Projection des modalités de X sur les axes factoriels retenus CPk = Z Wk , où Wk est le vecteur
propre unitaire à la valeur propre λk .
Remarque:
1. L’application de l’ACP sur le tableau des profils-lignes (respectivement, profils colonnes) se fait en considérant
les modalités de la variable X ( respectivement de Y ) étant des individus, ce qui donne un nuage des profils-lignes
(respectivement de profils colonnes) de p (respectivement k) points.
2. Dans l’ACP de la méthode AFC, nous retenons généralement les axes qui expliquent une part importante de
l’inertie de 80 % et plus. Comme il s’agit des valeurs d’inertie cumulées, nous pouvons calculer le pourcentage
d’inertie expliqué par chaque axe.

Exemple 1
Soit le tableau de contingence

X/Y Produit A Produit B ProduitC Produit D Total


Groupe 1 10 15 5 20 50
Groupe 2 20 5 15 10 50
Groupe 3 30 25 20 25 100
Total 60 45 40 55 200

nij
1. Le tableau des fréquences relative est obtenu par la formule fij =
n
X/Y Produit A Produit B ProduitC Produit D Total
Groupe 1 0.05 0.08 0.03 0.1 0.25
Groupe 2 0.1 0.03 0.08 0.05 0.25
Groupe 3 0.15 0.13 0.1 0.13 0.5
Total 0.30 0.23 0.2 0.28 1

2. Le tableau des fréquence théorique est obtenu par la formule fijth = fi· × f·j

X/Y Produit A Produit B ProduitC Produit D Total


Groupe 1 0.08 0.06 0.05 0.07 0.25
Groupe 2 0.08 0.06 0.05 0.07 0.25
Groupe 3 0.15 0.12 0.1 0.14 0.5
Total 0.30 0.23 0.2 0.28 1

fij − fijth
3. La matrice des écarts réduit est obtenue avec la formule zij = q
fijth
 
−0.11 0.08 −0.09 0.11
Z =  0.07 −0.12 0.13 −0.08 
0 0.03 0 −0.03

9
4. Distance entre profils ou test d’indépendance

On a le degré de la liberté est donnée par v = (3 − 1)(4 − 1) = 6 et soit α = 0.05


3 X
4 3 X
4
X (fij − fijth )2 X
χ2 = ≃ (zij )2 = 0.0831
i=1 j=1
fijth i=1 j=1

D’après la table de Khi-deux χ26;0.05 = 12.592


Comme χ2 < χ26;0.05 , alors on accepte l’hypothèse H1 , les deux variables sont dépendantes.

5. Application de l’ACP sur les profils lignes


 
0.3 0 0 0
−1 t
 0 0.23 0 0 
L =Z Dpc Z , où Dpc =   0

0 0.2 0 
0 0 0 0.28
   
  3.33 0 0 0 −0.11 0.07 0
−0.11 0.08 −0.09 0.11  0.08 −0.12 0.03
 0 4.35 0 0  
=  0.07 −0.12 0.13 −0.08  .  . 
 0 0 5 0   −0.09 0.13 0 
0 0.03 0 −0.03
0 0 0 3.57 0.11 −0.08 −0.03
 
  −0.11 0.07 0
−0.37 0.35 −0.45 0.39  0.08 −0.12 0.03 
=  0.23 −0.52 0.65 −0.29  .  
 −0.09 0.13 0 
0 0.13 0 −0.11
0.11 −0.08 −0.03
 
0.15 −0.16 0
=  −0.16 0.19 0 
0 0 0.01

PL (λ) = −(λ − 0.01)2 (λ − 0.33) = 0 =⇒ SP (L) = {0.01; 0.33}


On a
λ1 0.33
I1 = = = 0.94 qu signifie 94% de la variance, alors on retient que l’axe factoriel de
It 0.33 + 0.01 + 0.01
λ1 = 0.33

Espace propre associé à λ1 = 0.33


 
−0.18 −0.16 0
E(0.33) = ker(L − 0.33I3 ) = ker  −0.16 −0.14 0 
0 0 −0.32

−0.18x − 0.16y = 0

⇐⇒ −0.16x − 0.14y = 0

−0.32z = 0

(
x = −0.89y
=⇒
z=0
* +
 
E(0.33) = − 0.89; 1; 0

 
−0.89
On pose →

v1 =  1 
0
 

− −0.66
∥→
− p
v1 ∥ = (−0.89)2 + (1)2 + (0)2 = 1.34 =⇒ → = v1 =  0.75 

w
∥→

1
v1 ∥
0

10
La composante principale est alors
   
−0.11 0.07 0   0.13
−0.66
0.08 −0.12 0.03 −0.14
CP1 = Z t .−
→=    
w 1
 .  0.75  =  
 −0.09 0.13 0   0.16 
0
0.11 −0.08 −0.03 −0.13
6. Application de l’ACP sur les profils colonnes
 
0.25 0 0
−1
C =Z t Dpl Z, où Dpl =  0 0.25 0 
0 0 0.5
 
−0.11 0.07 0    
 0.08 −0.12 0.03  4 0 0 −0.11 0.08 −0.09 0.11
=  .  0 4 0  .  0.07 −0.12 0.13 −0.08 
 −0.09 0.13 0 
0 0 2 0 0.03 0 −0.03
0.11 −0.08 −0.03
 
−0.44 0.28 0  
 0.32 −0.48 0.06  −0.11 0.08 −0.09 0.11
=  .  0.07 −0.12 0.13 −0.08 
 −0.36 0.52 0 
0 0.03 0 −0.03
0.44 −0.32 −0.06
 
0.07 −0.07 0.08 −0.07
 −0.07 0.09 −0.09 0.07 
= 0.08 −0.09

0.1 −0.08 
−0.07 0.07 −0.08 0.08
PC (λ) = −λ(λ − 0.02)(λ − 0.32) = 0 =⇒ SP (C) = {0.32; 0.02; 0}
On a
λ1 0.32
I1 = = = 0.94 qui signifie 94% de la variance, alors on retient que l’axe factoriel de
It 0.32 + 0.02 + 0
λ1 = 0.32
Espace propre associé à λ1 = 0.32
 
−0.25 −0.07 0.08 −0.07
 −0.07 −0.23 −0.09 0.07 
E(0.32) = ker(C − 0.32I3 ) = ker  
 0.08 −0.09 −0.22 −0.08 
−0.07 0.07 −0.08 −0.24




−0.25x − 0.07y + 0.08z − 0.07t = 0......(1)

−0.07x − 0.23y − 0.09z + 0.07t = 0......(2)
⇐⇒


0.08x − 0.09y − 0.22z − 0.08t = 0.......(3)

−0.07x + 0.07y − 0.08z − 0.24t = 0......(4)

(1) + (4) =⇒ − 0.32x − 0.31t = 0 =⇒ x = −0.97t

(
−0.23y − 0.09z + 0.14t = 0......(4)
En remplaçant dans (2) et (3), on trouve
−0.09y − 0.22z − 0.16t = 0.......(5)
De (4), on trouve y = −0.39z + 0.61t
En remplacant dans (5), on obtient − 0.18z − 0.21t = 0 =⇒ z = −1.17t =⇒ y = 1.07t
Alors * +
 
E(0.32) = − 0.97; 1.07; −1.17; 1
 
−0.97
 1.07 
On pose →

v2 =  
 −1.17 
1

11
 
−0.46


∥→
− p
v2 ∥ = (−0.97)2 + (1.07)2 + (−1.17)2 + 1 = 2.11 =⇒ → = v2 = 

w  0.51 

2 →

∥ v2 ∥  −0.55 
0.47
La composante principale est alors
 
  −0.46  
−0.11 0.08 −0.09 0.11 0.19
→ =  0.07 −0.12 0.13 −0.08  .  0.51
CP2 = Z.−
w
 
 =  −0.2 
2  −0.55 
0 0.03 0 −0.03 0
0.47

Exemple 2
Soit le tableau de contingence résumant les boissons préférées de 500 personnes de différents catégories d’age.

X/Y Thé Café Lait Total


Enfants 10 0 100 110
Adolescents 12 250 8 270
Vieux 40 50 30 120
Total 62 300 138 500

nij
1. Le tableau des fréquences relative est obtenu par la formule fij =
n

X/Y Thé Café Lait Total


Enfants 0.02 0 0.2 0.22
Adolescents 0.02 0.5 0.02 0.54
Vieux 0.08 0.1 0.06 0.24
Total 0.12 0.6 0.28 1

2. Le tableau des fréquence théorique est obtenu par la formule fijth = fi· × f·j

X/Y Thé Café Lait Total


Enfants 0.03 0.13 0.06 0.22
Adolescents 0.06 0.32 0.15 0.54
Vieux 0.03 0.14 0.07 0.24
Total 0.12 0.6 0.28 1

fij − fijth
3. La matrice des écarts réduit est obtenue par la formule zij = q
fijth
 
−0.06 −0.36 0.57
Z =  −0.16 0.32 −0.34 
0.29 −0.11 −0.04

4. Distance entre profils ou test d’indépendance

On a le degré de la liberté est donnée par v = (3 − 1)(3 − 1) = 4 et soit le risque d’erreur α = 0.05
3 X
3 3 X
3
X (fij − fijth )2 X
χ2 = ≃ (zij )2 = 0.7995
i=1 j=1
fijth i=1 j=1

D’après la table de Khi-deux la valeur critique est χ24;0.05 = 9.49

12
Comme χ2 < χ24;0.05 , alors on accepte l’hypothèse H1 , les deux variables boisson préférée et catégorie d’age
sont dépendantes.
5. Application de l’ACP sur les profils lignes
 
0.12 0 0
−1 t
L =Z Dpc Z , où Dpc =  0 0.6 0 
0 0 0.28
     
−0.06 −0.36 0.57 8.33 0 0 −0.06 −0.16 0.29
=  −0.16 0.32 −0.34  .  0 1.67 0  .  −0.36 0.32 −0.11 
0.29 −0.11 −0.04 0 0 3.57 0.57 −0.34 −0.04
   
−0.5 −0.6 2.03 −0.06 −0.16 0.29
= −1.33 0.53 −1.21 . −0.36 0.32 −0.11 
  
2.42 −0.18 −0.14 0.57 −0.34 −0.04
 
1.4 −0.8 −0.16
=  −0.8 0.79 −0.4 
−0.16 −0.4 0.73
PL (λ) = −λ(λ − 1.96)(λ − 0.96) = 0 =⇒ SP (L) = {1.96; 0.96; 0}
On a
λ1 1.96
I1 = = = 0.67
It 1.96 + 0.96 + 0
λ2 0.96
I2 = = = 0.33
It 1.96 + 0.96 + 0
L’inertie cumulée est donnée par I = I1 + I2 = 1 qui signifie 100% de la variance, alors on retient les deux
axes factoriels de λ1 et λ2
Espace propre associé à λ1 = 1.96
 
−0.56 −0.8 −0.16
E(1.96) = ker(L − 1.95I3 ) = ker  −0.8 −1.17 −0.4 
−0.16 −0.4 −1.23


−0.56x + 0.8y − 0.16z......(1)

⇐⇒ −0.8x − 1.17y − 0.4z.......(2)

−0.16x − 0.4y − 1.23z......(3)

(2) − 5 × (3) ⇐⇒ 0.83y + 5.75z = 0 =⇒ z = −0.14y


En remplaçant dans (1), on trouve − 0.56x + 0.82y = 0 =⇒ x = −1.46y
Alors * +
n  o  
E(1.96) = − 1.42y; y; −0.14y , y ∈ R = − 1.42; 1; −0.14

Espace propre associé à λ2 = 0.96


 
0.44 −0.8 −0.16
E(0.96) = ker(L − 0.96I3 ) = ker  −0.8 −0.17 −0.4 
−0.16 −0.4 −0.23


0.44x + 0.8y − 0.16z.......(1)

⇐⇒ −0.8x − 0.17y − 0.4z.......(2)

−0.16x − 0.4y − 0.23z......(3)

(2) − 5 × (3) ⇐⇒ 1.83y + 0.75z = 0 =⇒ y = −0.41z


En remplaçant dans (1), on trouve 0.44x − 0.49z = 0 =⇒ x = 1.11z

13
Alors * +
n  o  
E(0.96) = 1.11z; −0.41z; z , y ∈ R = 1.11; −0.41; 1

   
−1.42 1.11
On pose →

v1 =  1  et →

v2 =  −0.41 
−0.14 1
 

− −0.82
∥→
− p
v1 ∥ = (−1.42)2 + (1)2 + (−0.14)2 = 1.73 =⇒ −→ = v1 =  0.57 
w
∥→

1
v1 ∥
−0.09
 

− 1.72
∥→
− p
v2 ∥ = (1.11)2 + (−0.41)2 + (1)2 = 1.55 =⇒ −→ = v2 =  −0.26 
w
∥→

2
v2 ∥
0.65
Les composantes principales sont alors
     
−0.06 −0.16 0.29 −0.82 −0.07
CP1 = Z t .−
w→ =  −0.36 0.32 −0.11  .  0.57  =  0.49 
1
0.57 −0.34 −0.04 −0.09 −0.66
     
−0.06 −0.16 0.29 1.72 0.13
CP2 = Z t .−
→ =  −0.36 0.32 −0.11  .  −0.26  =  −0.61 
w 2
0.57 −0.34 −0.04 0.65 1.04

6. Application de l’ACP sur les profils colonnes


 
0.22 0 0
−1
C =Z t Dpl Z, où Dpl = 0 0.54 0 
0 0 0.24
     
−0.06 −0.16 0.29 4.55 0 0 −0.06 −0.36 0.57
= −0.36
 0.32 −0.11  .  0 1.85 0  .  −0.16 0.32 −0.34 
0.57 −0.34 −0.04 0 0 4.17 0.29 −0.11 −0.04
   
−0.27 −0.3 1.21 −0.06 −0.36 0.57
= −1.64
 0.59 −0.46 . −0.16 0.32 −0.34 
 
2.59 −0.63 −0.17 0.29 −0.11 −0.04
 
0.42 −0.13 −0.1
=  −0.13 0.83 −1.12 
−0.1 −1.12 1.7
n o
PC (λ) = −λ(λ − 2.47)(λ − 0.48) = 0 =⇒ SP (C) = 2.47; 0.48; 0

On a
λ1 2.47 λ2 0.48
I1 = = = 0.84 et I2 = = = 0.16
It 2.47 + 0.48 + 0 It 2.47 + 0.48 + 0
L’inertie cumulée est I = I1 + I2 = 1qui signifie 100% de la variance, alors on retient les deux axes factoriels de
λ1 = 2.47 et λ2 = 0.48

14
Espace propre associé à λ1 = 2.47
 
−2.05 −0.13 −0.1
E(2.47) = ker(C − 2.47I3 ) = ker  −0.13 −1.64 −1.12 
−0.1 −1.12 −0.77


−2.05x − 0.13y − 0.1z = 0..........(1)

⇐⇒ −0.13x − 1.64y − 1.12z = 0........(2)

−0.1x − 1.12y − 0.77z = 0.........(3)

(2) − 1.3 × (3) =⇒ − 0.18y − 0.12z = 0 =⇒ y = −0.67z


En remplaçant dans (1), on trouve − 2.05x − 0.01z = 0 =⇒ x = 0

Alors * +
n  o  
E(2.47) = 0; −0.67z; z , z ∈ R = 0; −0.67; 1

Espace propre associé à λ2 = 0.48


 
−0.06 −0.13 −0.1
E(0.48) = ker(C − 0.48I3 ) = ker  −0.13 0.35 −1.12 
−0.1 −1.12 1.22


−0.06x − 0.13y − 0.1z = 0......(1)

⇐⇒ −0.13x + 0.35y − 1.12z = 0......(2)

−0.1x − 1.12y + 1.22z = 0.......(3)

(2) − 1.3 × (3) =⇒ 1.81y − 2.71z = 0 =⇒ z = 0.67y


En remplaçant dans (1), on trouve − 0.06x − 0.2y = 0 =⇒ x = −3.33y

Alors * +
n  o  
E(0.48) = − 3.33y; y; 0.67y , y ∈ R = − 3.33; 1; 0.67

   
0 −3.33
On pose →

v1 =  −0.67  et →

v2 =  1 
1 0.67
 

− 0
∥→
− p
v1 ∥ = (0)2 + (0.67)2 + (1)2 = 1.2 =⇒ − → = v1 =  −0.56 
w
∥→

1
v1 ∥
0.83
 

− −0.94
∥→

v2 ∥ = (−3.33)2 + (1)2 + (0.67)2 = 3.54 =⇒ −
p → = v2 =  0.28 
w
∥→

2
v2 ∥
0.19
Les composantes principales sont
     
−0.06 −0.36 0.57 0 0.33
CP1 =Z.−
→ =  −0.16 0.32 −0.34  .  −0.56  = 
w 1 −0.27 
0.29 −0.11 −0.04 0.83 0.16
     
−0.06 −0.36 0.57 −0.94 0.06
CP2 =Z.−
→ =  −0.16 0.32 −0.34  .  0.28  = 
w 2 0.18 
0.29 −0.11 −0.04 0.19 −0.31

15

Vous aimerez peut-être aussi