Analyse en Composantes Principales
Carole BINARD
Les données
Quand p>3 : représentation graphique impossible
Objectif
Extraire l’essentiel de l’information
contenue dans le tableau de données pour
fournir une représentation se prêtant plus
aisément à l’interprétation
Les espaces
Espace des individus:
Les n lignes du tableau peuvent être considérées comme n
points de l’espace des individus à p dimensions.
Espace des variables:
Les p colonnes peuvent être considérées comme p points dans
un espace à n dimensions (l’espace des variables).
L’espace des individus
On munit l’espace des individus de la distance euclidienne
classique:
L’espace des individus
On désigne par g le centre de gravité du nuage:
L’espace des individus
L’inertie du nuage s’écrit:
Définitions
On recherche des sous-espaces représentant au mieux ce nuage
de points en respectant 2 critères:
1. Critère de proximité
2. Fidélité des distances
Ce sont les sous-espaces passant par g et qui optimisent ces 2
critères
Définitions
Soit H le sous-espace passant par g.
Définition 1: L’inertie expliquée par H est définie par:
Définition 2: L’inertie par rapport à H (inertie résiduelle) est
définie par:
Définitions
Soit H le sous-espace passant par g.
Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle
On choisit H qui maximise l’inertie
expliquée et qui minimise l’inertie résiduelle
A
H1
Définitions
Soit H le sous-espace passant par g.
Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle
On choisit H qui maximise l’inertie
expliquée et qui minimise l’inertie résiduelle
A
H2
g
Définitions
Soit H le sous-espace passant par g.
Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle
On choisit H qui maximise l’inertie
expliquée et qui minimise l’inertie résiduelle
A H3
H3 est bon pour A. Mais
l’est-il pour B?
g
Définitions
Soit H le sous-espace passant par g.
Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle
On choisit H qui maximise l’inertie
expliquée et qui minimise l’inertie résiduelle
A H3
H3 est bon pour A. Mais
l’est-il pour B?
B
Détermination des nouveaux axes
On définit g comme origine du nouveau repère
Pour la première droite H1, on détermine un vecteur
unitaire u1 porté par H1 avec d(0,u1)=1
Détermination des nouveaux axes
On définit un deuxième sous-espace H2
On recherche u2 tel que :
u2 est perpendiculaire à u1
La droite portée par u2 (2ème composante), passant par 0,
ait une inertie maximale
En pratique
On construit la matrice de variances-covariances
On calcule les vecteurs et valeurs propres associées
On range dans l’ordre décroissant les valeurs propres (en
valeurs absolues) : le 1er vect. propre est associé à la plus
grande des valeurs propres,…
Ces vecteurs sont les u1, u2, …, up recherchés
Remarques
Les droites engendrées par ces vecteurs propres sont appelées
respectivement le 1er, le 2ème, le pième axe principal d’inertie
du nuage
L’inertie expliquée par H1 (1er axe principal) engendré par v1
est égale à la val. propre associée : λ1
L’inertie expliquée par le plan H2, engendré par v1 et v2 est
égale à λ1+ λ2
Les valeurs propres de la matrice de variances-
covariances représentent les parts d’inertie expliquée par
chacun des axes principaux du nuage de des individus
J
En résumé Tableau
des
i Données
J Matrice de
Matrice des
corrélation
valeurs J J
propres
Matrice des
J Diagonalisation vecteurs J
propres
K
Histogramme
des valeurs i Composantes
propres principales