0% ont trouvé ce document utile (1 vote)
560 vues17 pages

Exercices sur l'analyse en composantes principales

L'analyse en composantes principales (ACP) est présentée comme une méthode statistique pour résumer des tableaux de données quantitatives. Le document décrit un exemple d'ACP appliqué à un jeu de données à deux variables, montrant comment l'ACP peut réduire le nuage de points à une droite de régression unique résumant les similitudes entre les individus.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (1 vote)
560 vues17 pages

Exercices sur l'analyse en composantes principales

L'analyse en composantes principales (ACP) est présentée comme une méthode statistique pour résumer des tableaux de données quantitatives. Le document décrit un exemple d'ACP appliqué à un jeu de données à deux variables, montrant comment l'ACP peut réduire le nuage de points à une droite de régression unique résumant les similitudes entre les individus.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2

Module 2 : L’analyse en composantes principales -


Exercices préparatifs

L’analyse en composantes principales est notée ACP. Elle s’applique à tous les tableaux de données
où les variables sont de type quantitatif. C’est la méthode de référence pour deux raisons :
- c’est la plus facile à exposer sur le plan mathématique,
- c’est une méthode qui peut servir de support à d’autres techniques statistiques comme par
exemple la régression orthogonale, la construction d’indicateurs synthétiques, la prévision
d’une chronique ou encore compléter une information manquante dans un tableau.
Avant de présenter formellement la méthode de l’ACP (Module suivant), on va essayer dans ce
module, d’intuiter la démarche à travers deux exemples.

1er exemple

On considère le tableau suivant :


Individus\variable Y X
s

1 20 10

2 82 40

3 44 20

4 65 30

5 25 15

Somme 236 115

La représentation graphique des individus dans l’espace R² des deux variables, en utilisant une base
rrrrrr
orthonormée (( ) i,j,i = j = *i,1 j = 0)
, conduit au nuage des individus (nuage de régression)
Y
suivant :

100

90

80 70 60 20

2 10
r
50 j ir0
3
4
nuage de 40
régression
30
5
1
G( ,X Y)

X
0 10 20 30 40 50 60 70 80 90 100

1 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2

Avec la régression, il est parfois possible de visualiser l’information contenue dans le nuage de
régression (les proximités relatives des 5 points)
Le tableau des calculs permettant de trouver les éléments d’une régression sur données centrées
(x,y) et non centrée (X,Y) est le suivant :.

2 2
X Yy=Y−Yx=X−X
2 x Yˆ
2
y
Ind Y X XY xy
20 10 100 200 400 -27,20 -13,00 7,00 121184
82 40 34,80 289,00 10,0 353,6 18,9
44 20 160 328 672 -3,20 -3,00 0 9
65 30 0 0 4 17,80 7,00 316,8 9,00
25 15 400 880 -22,20 -8,00 4 591,6 84,0
900 193 49,0 0 9
225 195 6 492,8 0 9,60
0 4 40,6
375 422 64,0 124,6 9
5 0 0
625 62,3
177,6 9
0
29,8
4

1
2
3
4
5
Somme 236 115 3225 6685 13910 0,00 0,00 2770,80 580,00 1257,00 236,00 Il permet de calculer les
caractéristiques qui conduisent aux paramètres de la régression.

1
236
Y
Y=
∑ i = = 47 2.
n1
115
X
5
=
∑ = = 23 X i
n
13910
YY
1
5
=
[ ] ( ) 47 2. 554 16. ∑ i−=−=
222
VY
n 5

σ[Y] = V[Y] = 554 16. = 23 54.


3225
1 XX
=
[ ] ( ) 23 116 ∑
i−=−=VX
222

n 5
23) −
σ[X] = V[X] = 116
XY nXY 1 −
= 10 77. [ ] =∑ 1
(6685 5 * 47 2. *
cov ,X Y
= .0 9916
r
XY = =
rYX =
.0 9916 XY 10 77. * 23
[][] σσ n 54.
σσ 5
XY

2
=
r 98.0

2
r , le coefficient de détermination, nous indique que 98% du nuage de régression est expliqué par la
droite de régression Y = aX + b .
Il est donc possible d’utiliser cette droite pour résumer le nuage de régression.
La méthode de calcul des paramètres a et b de la droite de régression consiste à minimiser la somme
des carrés des résidus entre les valeurs observées Yi et le valeurs calculées Yiˆ
La minimisation de la somme des écarts au carré porte le nom de méthode des MCO. Cela s’écrit :

∑( − )2

i Yi Min Yˆ
On démontre que :
()[]
cov ,X Y σ Y 23 54.
aˆ = =
==r 17.2
[]
σ X .0 9916 *
V(X)
10 77.
ˆ
b = Y − aˆX ⇒ 47 2. − 17.2 * 23 = − 71.2 (la droite passe par le point G( ,X Y) qui est le centre de
gravité du nuage des points des individus).
ˆ
Y 2.17X 2.71
=−

2 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2

Le nuage de régression permet de connaître l’information concernant les individus du tableau. Par
exemple, on visualise le point 1 proche du point 5 et le point 1 loin du point 2. Il est possible aussi de
quantifier cette information en calculant toutes les distances au carré (théorème de Pythagore) entre
les paires de points et de les classer par ordre croissant.
Le graphe de régression montre que le nuage de point est inséré dans une ellipse aux bords aplatis ,
ce qui signifie que ce nuage peut être résumé au moyen d’une droite de régression. Cette observation
est confirmée par le calcul du coefficient de corrélation r = 99.0 , ce qui signifie qu’il existe une relation

étroite et positive entre X et Y. Il est donc possible de substituer au nuage de régression, la droite Y
ˆ
2.17X 2.71 = − ou encore la droite sur variables centrées yˆ = 17.2 x qui a pour origine le
point G( ,X Y). (Cf le tableau précédent pour le détail des calculs)

On peut donc calculer les projections au sens des moindre carrés (parallèlement à l’axe des
ordonnées) des 5 points sur la droite de régression.
ˆ
Ces projections sont données pour les variables non centrées par les calculs 1 Y5 Y , ,
ˆ
L . On constate
ˆ ˆ
alors que si on calcule la distance, par exemple, entre Y1 et Y5 au carré, on trouve environ celle du
nuage de régression entre le point 1 et le point 5.

Par conséquent, l’information concernant les 5 points sur l’axe Yˆ est conservée par rapport à celle du
nuage de régression. On peut donc dire que l’analyse de données a eu lieu puisque l’information est
pratiquement identique sur l’axe que dans le plan.
On peut aussi résumer l’information contenue dans le nuage de points en utilisant non pas les
projections sur la droite de régression des points au sens des MCO, mais leurs projections
orthogonales sur cette même droite, en conservant pour origine de l’axe, le point G et en construisant
un vecteur unitaire dont on connaît les coordonnées dans l’espace R² ; les projections orthogonales
des 5 points sur cette droite dont données par le produit scalaire entre le vecteur unitaire et un
vecteur qui a pour origine le point G et pour extrémité le point à projeter. On pourrait constater que,
dans ce cas aussi, la distance au carré par exemple entre le point 1 et le point 5 projetés est
approximativement identique à celle du plan entre les mêmes points. L’analyse de données est donc
encore réalisable en procédant de la sorte.
Remarque importante :
r r
lorsque l’on travaille sur les variables centrées, on a les coordonnées suivantes des vecteurs x et y :
  
−−−     
 13 
   −−−  
   27 2.
17 34 8.

X X xr r
−== 3 7 8
−==Y Yy 2.3 2.
17 8. 22
r r
Le produit scalaire entre les vecteurs x et y s’écrit :
rr
=−−++−−==

1257 xiyi x * y ( 13 (*) 27 )2. L ( (*)8 22 )2. i
rr
x*y
= ∑=
xy
De ce fait : cov( )y,x
n n r 2
D’où :
n)x(
V )x( cov( )x,x
==

r
et ( )nx
σ=
x

3 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2
cov( n
)y,x == rrx*y
rr
= x*y
rrrrr
De plus :
xy
σσ ailleurs
)x( )y( on sait n
que :
* n
x
Par y

rrrr
avec α l’angle formé par les deux vecteurs.
x * y = x * y * cos α

D’où : .
r = cos
α

Ainsi, lorsque les variables sont centrées, le coefficient de corrélation entre les 2 variables est
égal au cosinus de l’angle formé par les vecteurs représentant ces variables.

YY
yσ−
i
Quand on centre et on réduit des variables (par = ), on forme des vecteurs qui ont Y
exemple i
tous la même dimension. (V )y( = 1). De ce fait, la variance est la distance commune à tous les
vecteurs (ils se situent sur un cercle de rayon 1) et ils se positionnent les uns par rapport aux autres
par le coefficient de corrélation linéaire que l’on déduit à partir de l’angle formé par les deux vecteurs.

Exemple 2

Soit le tableau de données suivant :

Ind\var 1x 2
x

145

X )2,3( = 2 6 7
380

• Représentation graphique du nuage des 3 points individus dans l’espace R² des variables ( 1x en r r

x en ordonnée). Le système d’axes est orthonormé : base ( j,i )


abscisse, 2 telle que
rrrr
i = j = *i,1 j = 0 .

7 ir
6

3 r
j
2
1x
1 Les 3 points du nuage
constituent l’information
0
2 des lignes du tableau.
2
Les positions relatives
de ces 3 points peuvent
être calculées en
1
3 utilisant la distance
euclidienne.
0123456789

4 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2

3
• Représentation graphique du nuage des 2 points variables dans l’espace R des individus. Le r r r
système d’axes est orthonormé : base ( k,j,i )
telle que :
rrrrrrrrr
i = j = k = *i,1 j = 0 x

*i k = 0 *j k = 0 2

2
.

r
j ir
1
1x kr

Les points du nuage constituent l’information donnée par les colonnes du tableau. Ici aussi, on peut
calculer la distance euclidienne entre les deux point.
• Calcul des caractéristiques des colonnes du tableau

Calcul de la moyenne et de l’écart type de 1x et 2


x:
12
18
x1 = = 4
3 x2 = = 3
6
116 2
V x( )
1= − = σ x( 1) = .1 633
3 6 67.2

74 2
V x( )
2= − = σ x( 2) = .2 944
3 4 67.8

Calcul de la moyenne et de l’écart type de 1, 2, 3 :


9
13
2==4
8
1 = = 5.6
2 5.4 3==2
2
41 2
V )1(
=−=σ=
2 5.0
)5.4( 25.0 )1(

85 2
V )2(
=−=σ=
2 )5.6( 25.0 )2( 5.0
64 2
V )3(

=−=σ=
2 )4( 16 )3( 4

5 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2

• Construction du tableau des variables centrées et réduites :


1 4 5 -2 1 -1.225
x x−x 2 6 7 0 3 0
1x
2 11
3 8 0 2 -4 1.225

z
=
xx
− 22
2 x( ) 2
σ
0.34
1.02
Z )2,3( =
-1.36
Σ 18 12 0 0 0 0

on vérifie que : z1 = z2 = 0 , V z( 1) = V z( 2) = 1 et ( )1 2 1 2 z z, Cov z z, = r


2
• Représentation graphique du nuage des 3 points individus dans l’espace R des variables centrées
rr
z en ordonnée). Le système d’axes est orthonormé : base ( j,i )
réduites ( 1z en abscisse et 2 r r r r . Dans cet espace, l’origine des axes (point 0) est
confondu avec le centre
telle
que i = j = *i,1 j = 0

de gravité du triangle (Point G z( 1 = z,0 2 = )0

Z2
2
1

jr ir
0 G
Z1
2
1
-2 -1 0 1 2
3
-1 -2

3
Dans l’espace R des individus, se situent les deux variables centrées réduites. Avec un système
d’axes orthonormé on peut calculer :
En utilisant les variables centrées réduites dans l’espace à trois dimensions des individus avec un
système orthonormé on peut calculer :

  
  2 2
3  3 
   
( ) 3 2=
d z,0 D’où 1 2 ++0 2
=−

1
d ( ) z,0 1
2
= la variance de z1 1
3

 222 
 
3  32   43 
       
( ) 3 2=
d z,0 = 26 + +−
2 26 26

1
d ( ) z,0 1
2
= la variance de z2 2
3

6 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2

Dans cet espace, la distance au carré entre l’origine et une variable est, à N = 3 près, la variance de la
variable. Quand les variables sont centrées et réduites, toutes les variables sont équidistantes de
l’origine. Cette distance est, au nombre d’observations près, la variance des variables.
Récapitulatif : présentation des calculs :

1x 2
x
2=3 45
X 67
)2,3( xx
1 80
Zσ−
= ij j

64 2
326
x 2 ij
x
3 j
σxj

Tableau des variables centrées réduites :

1z 2

z 1z 1z
1
− 3 -1,225
263 −
3 2 xx
2 26 0 1,0
zσ− ij j
33
0
26 1,225

43
2 =
== ij
Z = . xi
)2,3(
3
avec

De plus : 11

cov
r
σσ
La moyenne des variables
00 centrées et réduites est égale à 0.

Z L’écart type des variables centrées


et réduites est égal à 1.
σzj
)x( )y(

=
comme σ )x( = 1 et σ )y( = 1, le coefficient de corrélation linéaire r entre 2 variables est égal à la
covariance.
Remarque : on peut aussi traiter l’information contenue dans le tableau de départ en utilisant le
tableau des individus centrés réduits.

1x 2
x ix x( ) σ i
1 45 4.5 0.5

X )2,3( = 2 3 67 6.5 0.5


80 4 4

7 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2

-1 1
-1 1
1 -1

q
σ−
xx
= avec =
Q )2,3( ij ij i
x( )
i
Il est possible de représenter l’information contenue dans ce nouveau tableau comme précédemment
et d’en tirer des conclusions.

1′
• Calcul du produit matriciel Z Z
N


 
  
  


  32  15 
  − 3  3   −− 3
  5 
  
 26  −− 
− 
3 
1 2 ⋅ = −
33 2 13   
− = =  − 1 69.0 
0 2 0 1 1 2 13
3 26 4 3 26 26 3 23 5
1
3 3 3 26 32 4 3 26 15 23
3 69.0 1

Le résultat de ce calcul est une matrice carrée, de dimension (2,2), notée R, contenant les coefficients
de corrélation linéaires des variables.
Cette matrice carrée R a pour dimension le nombre de variables. Elles possède les propriétés
suivantes :
- Elle est symétrique.
- elle a des 1 sur la diagonale principale (les variances des variables)
- Elle a des valeurs inférieures ou égales à 1 en valeur absolue.
Dans cette matrice R, on a sur la diagonale les variances des variables, or dans l’exercice précédent
on a vu que cette variance était, au nombre d’observations près, la distance de la variable à l’origine.
Elle contient de part et d’autre de la diagonale le coefficient de corrélation linéaire entre les deux
variables. Or dans l’exercice précédent, on a vu que ce coefficient de corrélation était le cosinus de
l’angle formé par les deux variables. L’angle formé par les deux variables peut donc en être déduit.
Avec la matrice R, il est donc possible de représenter dans l’espace les positions relatives des
variables entre elles. Cette matrice R nous donne donc l’information recherchée concernant les
variables. C’est la raison pour laquelle elle porte le nom de matrice d’information des variables.
• Calcul du produit matriciel ZZ’ :
 
 −3    
   

3 − −−−
−   9
2 26   − 3 3  51 
 21 13 
  

0 926 26

33 2 2 27 36
ZZ' =
= 26
0 3 43
⋅= 5126 V
33 26 )3,3(
26
32 4 3 26 26 36 87 26
26 26
26 26

Cette matrice V n’est pas une matrice de corrélation, mais elle y ressemble. On lui donne le nom de
matrice d’information des individus. Elle est symétrique ; sa diagonale est la somme des carrés des
individus lignes du tableau et de part et d’autre on trouve la somme des produits lignes deux à deux
des individus
• Caractéristiques de la matrice R
Les caractéristiques d’une matrice sont données par les vecteurs propres associés aux valeurs
propres de la matrice.

8 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2

On appelle vecteur propre associé à la valeur propre λ de la matrice R la solution du système


d’équation homogène RX = λX ⇔ [R-λI]X = 0.
On sait que si dans ce système d’équation le déterminant de la matrice R − λΙ ≠ 0 , alors ce système
possède une et une seule solution qui est X = 0 et que l’on appelle la solution triviale. C’est la raison
pour laquelle pour que ce système ait des solutions autres que celle-ci, il faut que le déterminant
R − Ιλ = 0 . Or ce déterminant conduit à une équation (équation caractéristique) qui a pour variable λ
et pour degré la dimension de la matrice R.
Les racines de cette équation donnent les différentes valeurs de λ et portent le nom de valeurs
propres. Pour chacune des valeurs propres, on pourra calculer à partir du système de départ, une
infinité de vecteurs X qu’on appelle les vecteurs propres. Parmi cette infinité de vecteurs propres, on
recherche par la suite le vecteur propre de norme 1 (c’est-à-dire le vecteur unitaire).
Dans ce cas on a :
R X = λ X avec λ ∈ R
)1,2()2,2( )1,2(

[R − λΙ]X = 0
=
00
 
 −−
R   10   x =  
1 69.0    1   
01 x 2
69.0 1 − λ 

=
00 1 69.0

R   −λ   12  
−λ−  − 69.0 1    
xx =

12
1( x) 69.0 x 0 − λ −
69.0 x 1( x) 0 1 2
= Calcul du déterminant :
 1 69.0
 − + − λ =
−λ− ()()
 
 −−λ

=−λ−−

22
R
− Ιλ = 69.0 1 1 69.0

( )( )
=−λ−−λ+
1 69.0 1 69.0
=−λ()−λ
31.0( ) 69.1
λ=
deux valeurs propres de R.
1 31.0
λ=2
69.1
Si on additionne 1.69 + 0.31 = 2, on obtient la dimension de la matrice (le nombre de variables du
tableau).
Calcul des vecteurs propres associés

pour λ1 = 69.1

[T − λΙ]X = 0
 
 −−
1 69.0 − 0 69.1 x x
 0
69.0 1    1=
 
−− 69.1 0  
  2
69.0 −   x x 
69.0 69.0   2
1=
  69.0  0
 −

− − = 69.0 x 69.0 x 0

 − − =

12
69.0 x 69.0 x 0 1 2

9 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2

x1 + x2 = 0
r k
∈ 
V1  
= k
  kR
  −
r r.
On a une infinité de vecteurs propres portés par la seconde bissectrice du plan ( ) 12
x x,
Pour trouver un vecteur propre normé il faut que :

1
2
2222
k k 1 2k 1 k
+=⇔=⇔=⇔=±
2
k 2

En retenant pour k la valeur positive, on définit :


2
 

 

 −
r
b1 = vecteur propre normé de R.
= 2 2
2

Pour λ2 = 31.0

 
 −−
69.0 69.0   x x 
  2
69.0 69.0 1=
 0

69.0 x 69.0 x 0 − =

 − + =
12
69.0 x 69.0 x 0 1 2
x−x=0⇒ x=x12
21

r k
∈ 
V2  
=  k kR
 

Pour trouver un vecteur propre normé il faut que :


2
222
2
k k 2k 1 k + =
=⇔=±
2
 



r
= vecteur propre normé de R.
b2 2 2
= 2

Ces vecteurs propres normés constituent une nouvelle base orthonormée dans laquelle la norme de
chaque vecteur =1 et leur produit scalaire est nul :
2 
r      22

b1   2
 −  
1 rr  2   2 
= 2 2        
et 0
b*b *
12=
r = = −
2 2 2 2
b1
2
= 2 2
On peut alors placer les coordonnées (dans l’ancienne base) de ces vecteurs dans une matrice B

)2,2(, dans l’ordres décroissant de leurs valeurs propres.

10 / 11
Analyse de données Module 2 : L’analyse en composantes principales - Exercices préparatifs M2
 2 
 − 2 
2
 2 
B )2,2( coordonnés des vecteurs b1 et b2 dans l’ancien système d’axes.
= ′
2
2
2 − 1
, soit B′B = I =
2
Cette matrice est une matrice orthogonale et vérifie donc : B B
• Caractéristique de la matrice V

Si on calcule comme précédemment les valeurs propres de la matrice V : V − Ιλ = 0 c'est-à-dire :

62.1 35.0 96.1

−λ−
55.0 04.1 38.1
−λ−
=
0
− − − λ 96.1 38.1 35.3
λ=1 07.5
on λ= 93.0
trouve : 2 0
λ=3

Si on porte dans un tableau les valeurs propres de V et de R on a :


V R

λ= λ=
07.5 69.1
1 1
λ= λ=
93.0 31.0
2 2
λ=
0
3

∑λj = 6 ∑λj = 2 = n

On voit que si on multiplie les valeurs propres de la matrice R par 3, on obtient les deux premières
valeurs propres de la matrice V et que la dernière valeur propre de V est nulle.

On peut démonter que les valeurs propres de la matrice V sont égales aux
valeurs propres de R multipliées par N et qu’il y a dans la matrice V, N-n
valeurs propres nulles.

On peut aussi démontrer qu’il est possible de calculer les vecteurs propres de V connaissant ceux de
R. Et donc, qu’en définitive, les caractéristiques de R permettent de calculer celles de V et
réciproquement.

11 / 11

Vous aimerez peut-être aussi