Analyse en Composante
Principale
Pr. Nabila HAMDOUN
Analyse en Composante Principale
Données :
n individus observés sur p variables quantitatives.
L’A.C.P. permet d’explorer les liaisons entre variables
et les ressemblances entre individus.
Analyse en Composante Principale
Résultats :
o Visualisation des individus (Notion de distances
entre individus)
o Visualisation des variables (en fonction de leurs
corrélations)
Analyse en Composante Principale
Analyse en Composante Principale
A chaque individu noté ei, on peut associer un point dans
Rp = espace des individus.
A chaque variable du tableau
X est associé un axe de Rp
Analyse en Composante Principale
Principe de l’ACP
On cherche une représentation des n individus , dans un sous-
espace de dimension k ( k petit 2, 3 …; par exemple
un plan)
Autrement dit, on cherche à définir k nouvelles variables
combinaisons linéaires des p variables initiales qui feront
perdre le moins d’information possible.
Analyse en Composante Principale
Caractéristiques
Ces variables seront appelées «composantes principales »
Les axes qu’elles déterminent : « axes principaux »
Les formes linéaires associées : « facteurs principaux »
Analyse en Composante Principale
Analyse en Composante Principale
Remarque 1 :
devra être « ajusté » le mieux possible au nuage des
individus: la somme des carrés des distances des individus à F
k doit être minimale.
Remarque 2
est le sous-espace tel que le nuage projeté ait une inertie
(dispersion) maximale.
Analyse en Composante Principale
Analyse en Composante Principale
Distance entre Individus
Analyse en Composante Principale
Distance entre Individus
Dans l’espace à p dimensions, on généralise cette notion :
la distance euclidienne entre deux individus s’écrit:
Problème des unités ?
Analyse en Composante Principale
Problème des unités ?
Pour résoudre ce problème, on choisit de transformer les
données en données centrées-réduites.
L’observation est alors remplacée par :
où moyenne de la variable X
écart-type de la variable X
Analyse en Composante Principale
Problème des unités ?
Exemple
Analyse en Composante Principale
Inertie
L’inertie est la somme pondérée des carrés des distances des
individus au centre de gravité g.
L’inertie mesure la dispersion totale du nuage de points.
Analyse en Composante Principale
Projection
Analyse en Composante Principale
Projection
Analyse en Composante Principale
On va chercher F tel que :
Ce qui revient d’après le théorème de Pythagore à maximiser :
Analyse en Composante Principale
Analyse en Composante Principale
La recherche d’axes portant le maximum d’inertie équivaut à la
construction de nouvelles variables (auxquelles sont associés
ces axes) de variance maximale.
En d’autres termes, on effectue un changement de repère
dans Rp de façon à se placer dans un nouveau système de
représentation où le premier axe apporte le plus possible de
l’inertie totale du nuage, le deuxième axe le plus possible de
l’inertie non prise en compte par le premier axe, et ainsi de
suite.
Analyse en Composante Principale
Cette réorganisation s’appuie sur la diagonalisation de la
matrice de variances-covariances.
Analyse en Composante Principale
Axes principaux
On appelle axes principaux d’inertie les axes de direction les
vecteurs propres de V normés à 1.
Il y en a p.
Le premier axe est celui associé à la plus grande valeur propre
On le note u1. Le deuxième axe est celui associé à la
deuxième valeur propre . On le note u2
Analyse en Composante Principale
Composantes principales
À chaque axe est associée une variable appelée composante
principale.
La composante c 1 est le vecteur renfermant les cordonnées
des projections des individus sur l’axe 1.
La composante c 2 est le vecteur renfermant les cordonnées
des projections des individus sur l’axe 2.
Analyse en Composante Principale
Composantes principales
Pour obtenir ces coordonnées, on écrit que chaque
composante principale est une combinaison linéaire des
variables initiales.
Analyse en Composante Principale
La variance d’une composante principale est égale à l’inertie
portée par l’axe principal qui lui est associé.
Analyse en Composante Principale
Les composantes principales sont non corrélées deux à deux.
En effet, les axes associés sont orthogonaux.
Analyse en Composante Principale
Représentation des Individus
Analyse en Composante Principale
Représentation des Individus
Si on désire une représentation plane des individus, la
meilleure sera celle réalisée grâce aux deux premières
composantes principales.
Analyse en Composante Principale
Représentation des Individus
Analyse en Composante Principale
Représentation des Individus
Les « proximités » entre les composantes principales et les
variables initiales sont mesurées par les covariances, et
surtout les corrélations.
Analyse en Composante Principale
Cercle des Corrélation
Analyse en Composante Principale
Le cosinus de l’angle formé par les variables Xi et Xj est le
coefficient de corrélation linéaire de ces deux variables
Analyse en Composante Principale
Analyse en Composante Principale
Analyse en Composante Principale
Validité des Représentations
mesure la part d’inertie expliquée par l’axe i.
est la part d’inertie expliquée par le premier plan
principal.
Analyse en Composante Principale
Validité des Représentations
Ce critère (souvent exprimé en pourcentage) mesure le degré
de reconstitution des carrés des distances.
Combien d’Axes choisir ?
Analyse en Composante Principale
Combien d’Axes choisir ?
Analyse en Composante Principale
Représentations des Variables
Les variables bien représentées sont celles qui sont proches
du cercle, celles qui sont proches de l’origine sont mal
représentées.
Analyse en Composante Principale
Représentations des Variables
Les variables bien représentées
sont celles qui sont proches du
cercle, celles qui sont proches de
l’origine sont mal représentées.