Chapitre I
Analyse en composantes
principales ”ACP”
Lamia JAAFAR Belaid Analyse 2
Analyse en composantes
principales
Contenu du chapitre 1: 3 semaines
Introduction au problème
Principe général (analyse des nuages)
Reconstruction des données et interprétation
Tout au long du chapitre quelques rappels de statistiques
élémentaires et résultats d’algèbre linéaire seront donnés!
Lamia JAAFAR Belaid Analyse 2
Introduction
Lamia JAAFAR Belaid Analyse 2
ACP
Problématique
Soit un ensemble de données représenté par un tableau de
variables {xik }, 1 ≤ i ≤ I, 1 ≤ k ≤ K . Les lignes définissent les
individus et les colonnes définissent les variables.
En ACP, les variables sont quantitatives!
Stratégie
Représenter graphiquement les relations entre individus par
l’évaluation de leurs ressemblances et les relations entre
variables par l’évaluation de leurs liaisons.
But
Interprétation des données par une analyse des résultats.
Lamia JAAFAR Belaid Analyse 2
ACP
Etude du table de données
Soit le tableau de données en ACP {xik }, 1 ≤ i ≤ I, 1 ≤ k ≤ K .
La ligne i ⇒ individu, la colonne k ⇒ la variable.
xik
Ce tableau peut être vu comme un ensemble de lignes ⇒
chercher les ressemblances/différences entre les lignes
(individus). Ces ressemblances sont définies sur
l’ensemble des variables! ⇒ typologie ⇒ nuage de points
dans RK .
Sinon, un ensemble de colonnes ⇒ chercher les liaisons
(linéaires) entre les colonnes (variables)⇒ facteur de
corrélation. Nuage de points (variables) dans RI .
Lamia JAAFAR Belaid Analyse 2
ACP
Notions élémentaires en statistique
La moyenne/moyenne arithmétique pour la variable k est
X
I
1
x̄k = I xik .
i=1
La variance pour la variable k est
X
I
Var (xk ) = 1I (xik − x̄k )2 .
i=1
L’ écart-type pour la variable k est la racine carré de la
variance, soit σk2 = Var (xk ).
La covariance pour les variables k, l entre les vecteurs
X
I
xk , yl est Cov (xk , yl ) = σkl = 1I (xik − x̄k )(yil − ȳl ).
i=1
Le facteur de corrélation entre les variables k, l est
rkl = σσkklσl .
Lamia JAAFAR Belaid Analyse 2
ACP
Notions élémentaires en statistique
Propriétés statistiques
La moyenne dépend de toutes les mesures et est sensible
aux valeurs extrêmes.
La variance et l’écart type mesurent la dispersion.
Le facteur de corrélation r étudie l’intensité de la liaison
entre les variables. |r | ≤ 1. Si r est proche de 1 alors les
variables fournissent la même information.
On définit la matrice de corrélation des variables par
rkl = Corr (xik , xil ) pour un individu i donné.
Lamia JAAFAR Belaid Analyse 2
ACP
Synthèse des objectifs
Analyse de quelques tableaux de données:
Exemple 1
Exemple 2
Exemple 3
L’ACP est une méthode de statistique descriptive et
exploratoire multi-dimensionnelle.
L’ACP va permettre de synthétiser et résumer l’information
d’un grand tableau de données individus × variables
quantitatives.
L’analyse en ACP se fera à partir d’illustration de
graphiques.
Lamia JAAFAR Belaid Analyse 2
Principe général (analyse des
nuages)
Lamia JAAFAR Belaid Analyse 2
Analyse des nuages
On rappelle qu’un tableau de données peut être vu de deux
manières:
On cherche à déterminer deux profils qui se ressemblent
=⇒ notion de distance! =⇒ construction de groupes
d’individus homogènes =⇒ synthèse.
On cherche à déterminer d’éventuelles liaisons parmi les
variables =⇒ notion de corrélation! =⇒ groupe de
variables étroitement corrélées =⇒ synthèse.
On cherche à déterminer quelles relations relient ces deux
études!
Peut-on résumer les variables par des indicateurs
synthétiques?
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI
1 individu (une ligne) = 1 point dans RK . Si K = 1 ⇒
représentation axiale, si K = 2 ⇒ nuage de points dans un
espace bi-dimentionnel. La représentation devient délicate
si K = 3 et puis impossible! ⇒ on cherchera donc à
approximer le nuage!
Etudier le nuage des individus ⇒ Analyser la structure
géométrique (forme du nuage) ⇒ Définir une distance!
Définition
Soient i, j deux individus de RK . La distance entre ces deux
X
K
2
individus est telle que d (i, j) = (xik − xjk )2 = ||i − j||2 .
k =1
Deux individus se ressemblent s’ils prennent des valeurs
proches sur l’ensemble des K variables.
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI
Etude du tableau de données dans RK ⇒ Etude de la forme du
nuage des individus NI dans RK ⇒ Etude des distances entre
les individus ⇒ visualisation dans un espace bi-dimentionnel ⇒
image approchée!
https://images.4ever.eu/tag/23765/vol-doiseaux?pg=10
Besoins d’harmonisation!
Pré-traitement: notions de centrage et de réduction!
Centrer consiste à retirer de chaque valeur d’une variable
la valeur moyenne.
Réduire consiste à diviser chaque valeur d’une variable
centrée par l’écart-type de la variable.
xik − x̄k
xik L9999K .
σk
Lamia JAAFAR Belaid Analyse 2
ACP
Nuage des individus NI
Interpréter les résultats obtenus à partir d’un nuage de points
exprimant le poids et la taille d’individus en modifiant les unités
utilisées m/kg (resp. cm/q).
Le centrage ne modifie pas la forme du nuage. L’ avantage
est de mieux visualiser les variables dont les moyennes
sont trop différentes ⇒ on ramène toutes les variables à
une moyenne nulle.
La réduction permet de mieux interpéter le nuage de
points en éliminant l’unité et en homogénéisant les écarts.
Les variables deviennent d’écart-type 1.
Toutes nos données seront centrées et réduites ⇒ données
normées (standardisées).
Lamia JAAFAR Belaid Analyse 2