Ministère de l'enseignement supérieur et de la recherche scientifique
Université de JIJEL
Faculté des Sciences Exactes et Informatique
Département d’Informatique
ACP
Analyse en Composantes
Principales
M1 SIAD & ILM
Introduction
• Les méthodes factorielles
- la projection sur un espace de dimension
inférieur,
- Une visualisation de l’ensemble des liaisons entre
variables ,
- Réduire le nombre de variables, tout en
minimisant la perte de l’information.
2
3
Introduction
• L’ACP (Hotelling, 1933) a pour objectif de réduire
le nombre de données, souvent très élevé, d’un
tableau de données :
- Algébriquement: matrice,
- Géométriquement : nuage de points.
4
Introduction
• L’ACP consiste en l’étude des projections des
points de ce nuage sur:
- un axe, un plan ou un hyperplan
(Mathématiquement: des sous-espaces vectoriels).
5
La représentation graphique
• Lorsqu’il n’y a que deux dimensions (
exemple: largeur et longueur), il est facile de
représenter les données sur un plan :
6
La représentation graphique
• Avec trois dimensions (largeur, hauteur et
profondeur par ex.), c’est déjà plus difficile :
7
La représentation graphique
• Mais au delà de 3 dimensions, il est
impossible de représenter les données sur un
plan ou même de les visualiser mentalement.
8
Projeter la réalité sur un plan
Figure de J.P.Fenelon
- Selon le point de vue, l’information retenue ne sera
pas la même.
- L’ACP nous propose un point de vue permettant de voir
au mieux les individus d’un tableau.
9
Résumer les données
• Lorsqu’on projette les données sur un plan, on
obtient un graphique déformé de la réalité.
• Le rôle de l’ACP est de trouver des espaces de
dimensions plus petites minimisant ces
déformations.
10
Données et leurs caractéristiques
• Tableau des données
Chaque tableau contient des lignes qui
représentent les individus et des colonnes qui
représentent les variables.
Ce tableau rectangulaire (matrice) qu’on note
par X possède des observations à n individus
et p variables.
Il a la forme suivante :
11
Données et leurs caractéristiques
• Tableau des données
x11 ….. x1p
. .
X= . xij . ϵ MR (n, p),
. .
xn1 …. xnp
où xij est la valeur prise par la variable j sur l’individu i.
Individu=Élément de Rp
Variable = Élément de Rn 12
Données et leurs caractéristiques
Individus et variables
• Individu: Le ieme individu est un vecteur à p
composantes réelles qu’on le note par ei tel que
ei = (xi1, xi2, ..., xip) ϵ Rp; pour i = 1, n
13
Données et leurs caractéristiques
Individus et variables
• Variable: La j eme variable est la liste des n valeurs
qu’elle prend sur n individus, on la note par xj tel
que:
xj = (x1j, x2j, ..., xnj)t ϵ Rn; pour j = 1, p:
14
Données et leurs caractéristiques
• L’A.C.P: permet d’explorer les liaisons entre
variables et les ressemblances entre
individus.
• Résultats:
- Visualisation des individus (Notion de
distances entre individus)
- Visualisation des variables (en fonction de
leurs corrélations)
15
Deux nuages de points
• Le tableau peut être vu comme un ensemble
de lignes ou un ensemble de colonnes.
16
Nuage des individus
• A chaque individu noté ei, on peut associer un
point dans Rp= espace des individus.
• A chaque variable du tableau X est associé un
axe de Rp.
17
Principe de l’ACP
• On cherche une représentation des n
individus, dans un sous-espace Fk de Rp de
dimension k ( k petit 2, 3) (k<p)
• Autrement dit, on cherche à définir k
nouvelles variables combinaisons linéaires
des p variables initiales qui feront perdre le
moins d’information possible.
18
Principe de l’ACP
• Ces variables seront appelées «composantes
principales »
• les axes qu’elles déterminent : « axes
principaux »
• les formes linéaires associées : « facteurs
principaux »
19
Perdre le moins d’information possible:
Fk devra être « ajusté » le mieux possible au
1
nuage des individus: la somme des carrés des
distances des individus à Fk doit être minimale
2 Fk est le sous-espace tel que le nuage projeté ait
une inertie (dispersion) maximale.
(1 ) et (2) sont basées sur les notions de:
- Distance
- Projection orthogonale
20
La distance entre fi et fj est inférieure ou égale à celle entre ei et21ej
LE CHOIX DE LA DISTANCE ENTRE
INDIVIDUS
• Dans le plan:
d2 (A, B) = (xB - xA )2 + (yB - yA )2
22
LE CHOIX DE LA DISTANCE ENTRE
INDIVIDUS
• Dans l’espace Rp à p dimensions, on généralise
cette notion : la distance euclidienne entre
deux individus s’écrit:
23
Inertie totale du nuage de points
• On appelle inertie la quantité d’information
contenue dans un tableau de données.
• Une inertie nulle signifie que tous les
individus sont presque identiques.
• Si les j variables sont centrés-réduits, l’inertie
sera égale à j.
24
Inertie totale du nuage de points
• On note l’inertie totale du nuage de points
Ig=mesure de dispersion des points au sein du
nuage = somme pondérée des carrés des
distances par rapport au centre de gravité G
du nuage
25
Équivalence des deux critères
concernant la perte d’information
26
Équivalence des deux critères
concernant la perte d’information
27
Équivalence des deux critères
concernant la perte d’information
28
Les étapes pour déterminer la
composante principale :
• Centrage et réduction des données
• Déterminer les valeurs propres et les vecteurs
propres sur la base de la matrice de
corrélation entre les variables
• Déterminer les axes factoriels
• Sélectionner les composantes principales
29
Centrage des données
• Le centrage est réalisé de façon systématique en ACP
• Translation du centre de gravité du nuage sur l'origine
• Centrer les données ne modifie pas la forme du nuage
⇒toujours centrer
30
Réduction des données
Exemple:
Echantillon1 Echantillon2
Poids (g) Diamètre (mm) Poids (g) Diamètre (cm)
100 70 100 7
95 65 95 6,5
6.25 6.25 Variance (inertie) 6.25 0.0065
Dans le premier cas, quand on va chercher le
premier axe principale d’inertie, les variables poids
et diamètre influencent de manière égale le calcul
de l’axe (elles ont toutes deux une variance de 6.25)
31
Réduction des données
Exemple:
Mais dans le second cas, la variable poids « pèsera
beaucoup plus lourd » que la variable diamètre
dans le calcul, car 6.25 est bien plus grand que
0.0065.
C’est problématique, car le premier et le second
cas représentent exactement les mêmes pommes
Réduire les données
32
Réduction des données
• Plus la variable a un écart-type élevé, plus elle
apporte de l'inertie en projection et plus elle
«attire les axes».
• Or, l'écart type dépend directement de l'unité de
mesure...
• Pour éviter d'accorder une plus grande importance
aux variables exprimées arbitrairement avec de plus
grandes valeurs, on réduit les variables
33
Réduction des données
• Transformer nos variables de telle manière que leur
moyenne soit égale à 0 (centrage) et que leur
variance soit égale à 1 (la réduction)
• Après avoir centré les données, si on les divise par
leur écart type, alors on obtient des valeurs dont la
variance vaut 1
34
Réduction des données
• Lorsque les variables sont exprimées dans des
unités de mesure différentes, réduction
systématique des données.
• En cas d’unités de mesure identiques ?
• Réduction : consiste à accorder une même
importance à chaque variable
• Non réduction : accorde plus d’importance
aux variables de forte dispersion
35
Centrage et réduction des données
• Matrice Centrée Réduite est obtenue par la formule
suivante :
• La moyenne est un outil de calcul permet de
résumer une liste de valeurs numériques en un seul
nombre réel sans tenir compte de l’ordre de la liste.
36
Centrage et réduction des données
• On appelle le point moyen ou centre de gravité
le vecteur G des moyennes arithmétiques de
chaque variable:
• Lorsqu’on analyse des variables centrées, ce
point moyen G sera le centre du repère
considéré:
37
Centrage et réduction des données
• L’écart type est un outil de calcul permet de
mesurer la dispersion des valeurs d’un
échantillon. C’est la racine carrée de la variance :
• Avec la variance est la moyenne des carrées des
écarts à la moyenne :
38
Centrage et réduction des données
• Réduire ou normer donne la même dispersion,
une même importance, à chaque variable (dans
l'espace, elles ont même longueur:1)
On dit que l'on réalise une ACP normée
• Ne pas réduire ou ne pas normer laisse à chaque
variable son écart-type initial ce qui conduit à
accorder à chaque variable une importance
proportionnelle à son écart-type.
On dit que l'on réalise une ACP non normée
(simple)
39
Recherche des axes factoriels
• La recherche d’axes portant le maximum d’inertie
équivaut à la construction de nouvelles variables
(auxquelles sont associés ces axes) de variance
maximale.
40
Recherche des axes factoriels
• En d’autres termes, on effectue un changement de
repère dans Rp de façon à se placer dans un
nouveau système de représentation où le premier
axe apporte le plus possible de l’inertie totale du
nuage, le deuxième axe le plus possible de l’inertie
non prise en compte par le premier axe, et ainsi de
suite.
41
Recherche des axes factoriels
• Cette réorganisation s’appuie sur la
diagonalisation de la matrice de variances-
covariances (matrice de corrélations pour des
données centrées-réduites).
• Les axes principaux sont ceux maximisant la
variance projetée: ce sont les vecteurs propres
normés associés aux plus grandes valeurs propres
de la matrice de covariance/corrélation.
42
Recherche des axes factoriels
- les vecteurs propres normés à 1(axes de
direction ou axes factoriels)
- les valeurs propres (inerties associées aux axes)
43
Recherche des axes factoriels
• Le premier axe est celui associé à la plus
grande valeur propre . On le note u1
• Le deuxième axe est celui associé à la
deuxième valeur propre . On le note u2
• ...
44
Matrice des variances covariances
• La Matrice des variances covariances permet de
mesure la liaison linéaire qui peut exister entre un
couple de variables statistiques
Var X1 Cov(X1,X2) Cov(X1,X3)
Cov(X2,X1) Var X2 Cov(X2,X3)
Cov(X3,X1) Cov(X3,X2) Var X3
• Si Cov(X2,X1) =0les variables X1 et X2 sont
indépendantes
• Si Cov(X2,X1) ≠ 0les variables X1 et X2 sont
dépendantes (existe une relation linéaire entre les
variable)
45
Matrice des variances covariances
• Obtenue par la formule suivante :
V=1/n * tMc * Mc
• Mc : Matrice centrée
• tMc : Matrice centrée transposée
46
Matrice des corrélations
• Matrice des corrélations entre variables
permet d’analyser les relations bilatérales
entre les variables :
• Obtenue par la formule suivante :
Γ=1/n *t Mcr * Mcr
Mcr : Matrice centrée réduite
tMcr : Matrice centrée réduite transposée
47
Calculer les valeurs propres
• Déterminer le polynôme caractéristique :
Det |X-λI ⎸
- Calculer les valeurs propres λ
- Déterminer les vecteurs propres orthogonaux
associés aux valeurs propres
48
Caractères des composantes principales
• Il n’y a pas de redondance d’information
entre deux composantes principales.
• Les composantes principales sont centrées.
• La variance d’une composante principale est
égale à l’inertie portée par l’axe principal qui
lui est associé.
49
Caractères des composantes principales
• Soit u1 est le vecteur propre associé à la première
grande valeur propre λ1. Soit donc Δu1 ce premier
axe principal.
• Si on veut chercher un deuxième axe Δu2 , où u2
est son vecteur unitaire orthogonal à u1 (c-à-d
<u1, u2>=0)
50
Caractères des composantes principales
• C-à-d le vecteur unitaire u2 de la droite Δu2 est le
vecteur propre associé à la deuxième plus grande
valeur propre λ2, il est orthogonal à u1.
• Ainsi de suite on cherche le troisième axe et ……
jusqu’au q ieme axe, q<p
51
Choix du nombre de facteur à retenir
Le critère qui permet de choisir le nombre
d’axes principaux à retenir utilisé est celui de
pourcentage inertie totale expliquée:
52
Caractères des composantes principales
• Soient Δu1 Δu2 … Δuq les q premiers axes principaux
de vecteurs unitaires u1, u2, …, uq.
• On appelle pourcentage d’inertie expliquée par
l’axe Δuj la quantité suivante définie par :
λj λj
=
IN(O) Tr(V) j=1..q
53
Représentation des individus
• L’inertie est donc aussi égale à la somme des
variances des variables étudiées.
• Remarque: dans le cas où les variables sont
centrées réduites, la variance de chaque variable
vaut 1.
• L’inertie totale est alors égale à p (nombre de
variables). 54
Représentation des individus
• Supposons que nous avons retenu q axes
principaux, q<=p. Alors on doit effectuer la
projection des individus xi ϵRp dans l-hyper plan H
formés par les q axes principaux.
• La valeur de la projection de xi sur l’axe Δul notéé
c(i,l) est donnée par
c(i,l)= xi * ul
55
Représentation des individus
• La jème composante principale fournit les
coordonnées des n individus sur le jème axe
principal.
• Si on désire une représentation plane des
individus, la meilleure sera celle réalisée
grâce aux deux premières composantes
principales.
56
Représentation d’individus
supplémentaires
• On désire savoir où placer sur un graphique un
nouveau individu xk dont on connait ses coordonnés
dans Rp
x1 k
x2 k
xk= .. ϵ Rp
xpk
Pour cela on calcule les coordonnées de xk dans
le système des axes principaux, c-à-d on calcule
les valeurs txk a1, txk a2, …, txk ap où les al sont les
facteurs principaux, lk=1,p, al=Mul 57
Représentation des variables
supplémentaires
• Les proximités entre les composantes
principales et les variables initiales sont
mesurées par les covariances, et sur tout les
corrélations.
• R(cj,xi) est le coefficient de corrélation
linéaire entre cj et xi
Cercle des corrélations
58
Représentation des variables supplémentaires
• Le cercle des corrélations est la projection du
nuage des variables sur le plan des
composantes principales.
corrélation =cosinus
• Les variables bien représentées sont celles qui
sont proches du cercle, celles qui sont proches
de l’origine sont mal représentées.
59
La qualité de la représentation des
individus
Pour avoir une idée sur la qualité de la
représentation de chacun de n individus dans
le sous espace constitué par les axes
principaux, on calcul les cos2 des angles
compris entre l’individu xi et leurs projections
dans les différents sous espaces.
60
La qualité de la représentation des
individus
x
α
O
u t
• Nous dirons qu’un individu est mieux
représenté lorsque le cos2 est proche de 1.
(La valeur 1 nous l’obtenons si l’on retenait p
axes)
61