Analyse en Composante
Principale (ACP)
Taoufik ZAGOUB
Introduction
L'analyse en composantes principales est une
méthode d'analyse des données multivariées. Elle
permet de décrire et d'explorer les relations qui
existent entre plusieurs variables simultanément à la
différence des méthodes bi-variées qui étudient les
relations supposées entre deux variables.
La procédure s'appuie sur un tableau
caractéristiques (c-a-d variables X individus). On
cherche un nombre plus réduit de variables pour
décrire efficacement les phénomènes structurant
d'un groupe de données.
Introduction
On recherche donc les corrélations qui existent entre
les différentes variables, pour rapprocher au sein de
"composantes" les variables les plus proche entre
elles. On regroupe donc les variables pour qu'elles
"composent" des dimensions dans le but de réduire
le nombre de caractéristiques décrivant les individus
afin de mieux interpréter les données. Les
"composantes" sont en quelque sorte des "méta-
variables"
Introduction
En pratique chaque dimension est définie par
la meilleure combinaison linéaire de
variables expliquant la variance non
expliquée par la dimension précédente.
Introduction (données)
n individus observés sur p variables quantitatives.
Tableau de données n ligne (les individus) et p
colonnes (les variables)
(L’A.C.P. permet d’explorer les liaisons entre
variables et les ressemblances entre individus.)
Introduction (Résultats de l’ACP)
Visualisation des individus
(Notion de distances entre individus
(distance euclidienne)
Visualisation des variables
(en fonction de leurs corrélations (matrice de
corrélation entre les variables)
Introduction (Interprétation des
résultats)
1) Mesurer la qualité des représentations
obtenues :
*critère global
*critères individuels
2) Donner des noms aux axes
Expliquer la position des individus
3) Utilisation éventuelle de variables
supplémentaires
* Illustrative
Principe de ACP
On cherche une représentation des n individus,
dans un sous-espace Fk de IRp de dimension k
( k petit 2, 3)
Autrement dit, on cherche à définir k nouvelles
variables combinaisons linéaires des p
variables initiales qui feront perdre le moins
d’information possible.
Principe de ACP
*Les variables seront appelées «composantes
principales»
*Les axes qu’elles déterminent : «axes
principaux»
*Les formes linéaires associées : «facteurs
principaux»
Principe de ACP
Données
p variables quantitatives observées sur n
individus
Dans un tableau de cette forme
Données
On cherche à représenter le nuage des
individus.
A chaque individu noté ei , on peut associer un
point dans IRp = espace des individus.
A chaque variable du tableau X est associé un
axe de IRp.
Données (exemple de 3 Axes)