0% ont trouvé ce document utile (0 vote)
229 vues61 pages

Introduction à l'ACP pour étudiants

Le document décrit les étapes de l'analyse en composantes principales (ACP), y compris le centrage et la réduction des données, la détermination des valeurs et vecteurs propres, la sélection des composantes principales et la représentation graphique des résultats. L'ACP vise à réduire le nombre de variables tout en minimisant la perte d'information.

Transféré par

calabi mozart
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
229 vues61 pages

Introduction à l'ACP pour étudiants

Le document décrit les étapes de l'analyse en composantes principales (ACP), y compris le centrage et la réduction des données, la détermination des valeurs et vecteurs propres, la sélection des composantes principales et la représentation graphique des résultats. L'ACP vise à réduire le nombre de variables tout en minimisant la perte d'information.

Transféré par

calabi mozart
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Ministère de l'enseignement supérieur et de la recherche scientifique

Université de JIJEL
Faculté des Sciences Exactes et Informatique
Département d’Informatique

ACP
Analyse en Composantes
Principales

M1 SIAD & ILM


Introduction
• Les méthodes factorielles
- la projection sur un espace de dimension
inférieur,
- Une visualisation de l’ensemble des liaisons entre
variables ,
- Réduire le nombre de variables, tout en
minimisant la perte de l’information.
2
3
Introduction
• L’ACP (Hotelling, 1933) a pour objectif de réduire

le nombre de données, souvent très élevé, d’un

tableau de données :

- Algébriquement: matrice,

- Géométriquement : nuage de points.


4
Introduction
• L’ACP consiste en l’étude des projections des

points de ce nuage sur:

- un axe, un plan ou un hyperplan

(Mathématiquement: des sous-espaces vectoriels).

5
La représentation graphique

• Lorsqu’il n’y a que deux dimensions (


exemple: largeur et longueur), il est facile de
représenter les données sur un plan :

6
La représentation graphique

• Avec trois dimensions (largeur, hauteur et


profondeur par ex.), c’est déjà plus difficile :

7
La représentation graphique

• Mais au delà de 3 dimensions, il est

impossible de représenter les données sur un

plan ou même de les visualiser mentalement.

8
Projeter la réalité sur un plan

Figure de J.P.Fenelon

- Selon le point de vue, l’information retenue ne sera


pas la même.
- L’ACP nous propose un point de vue permettant de voir
au mieux les individus d’un tableau.
9
Résumer les données

• Lorsqu’on projette les données sur un plan, on


obtient un graphique déformé de la réalité.

• Le rôle de l’ACP est de trouver des espaces de


dimensions plus petites minimisant ces
déformations.

10
Données et leurs caractéristiques

• Tableau des données


Chaque tableau contient des lignes qui
représentent les individus et des colonnes qui
représentent les variables.
Ce tableau rectangulaire (matrice) qu’on note
par X possède des observations à n individus
et p variables.
Il a la forme suivante :

11
Données et leurs caractéristiques

• Tableau des données


x11 ….. x1p
. .
X= . xij . ϵ MR (n, p),
. .
xn1 …. xnp

où xij est la valeur prise par la variable j sur l’individu i.

Individu=Élément de Rp
Variable = Élément de Rn 12
Données et leurs caractéristiques

Individus et variables

• Individu: Le ieme individu est un vecteur à p


composantes réelles qu’on le note par ei tel que

ei = (xi1, xi2, ..., xip) ϵ Rp; pour i = 1, n

13
Données et leurs caractéristiques

Individus et variables

• Variable: La j eme variable est la liste des n valeurs


qu’elle prend sur n individus, on la note par xj tel
que:

xj = (x1j, x2j, ..., xnj)t ϵ Rn; pour j = 1, p:

14
Données et leurs caractéristiques

• L’A.C.P: permet d’explorer les liaisons entre


variables et les ressemblances entre
individus.
• Résultats:
- Visualisation des individus (Notion de
distances entre individus)
- Visualisation des variables (en fonction de
leurs corrélations)
15
Deux nuages de points
• Le tableau peut être vu comme un ensemble
de lignes ou un ensemble de colonnes.

16
Nuage des individus
• A chaque individu noté ei, on peut associer un
point dans Rp= espace des individus.
• A chaque variable du tableau X est associé un
axe de Rp.

17
Principe de l’ACP

• On cherche une représentation des n


individus, dans un sous-espace Fk de Rp de
dimension k ( k petit 2, 3) (k<p)

• Autrement dit, on cherche à définir k


nouvelles variables combinaisons linéaires
des p variables initiales qui feront perdre le
moins d’information possible.

18
Principe de l’ACP

• Ces variables seront appelées «composantes


principales »

• les axes qu’elles déterminent : « axes


principaux »

• les formes linéaires associées : « facteurs


principaux »
19
Perdre le moins d’information possible:
Fk devra être « ajusté » le mieux possible au
1
nuage des individus: la somme des carrés des
distances des individus à Fk doit être minimale

2 Fk est le sous-espace tel que le nuage projeté ait


une inertie (dispersion) maximale.

(1 ) et (2) sont basées sur les notions de:


- Distance
- Projection orthogonale
20
La distance entre fi et fj est inférieure ou égale à celle entre ei et21ej
LE CHOIX DE LA DISTANCE ENTRE
INDIVIDUS
• Dans le plan:
d2 (A, B) = (xB - xA )2 + (yB - yA )2

22
LE CHOIX DE LA DISTANCE ENTRE
INDIVIDUS
• Dans l’espace Rp à p dimensions, on généralise
cette notion : la distance euclidienne entre
deux individus s’écrit:

23
Inertie totale du nuage de points

• On appelle inertie la quantité d’information


contenue dans un tableau de données.

• Une inertie nulle signifie que tous les


individus sont presque identiques.

• Si les j variables sont centrés-réduits, l’inertie


sera égale à j.
24
Inertie totale du nuage de points
• On note l’inertie totale du nuage de points
Ig=mesure de dispersion des points au sein du
nuage = somme pondérée des carrés des
distances par rapport au centre de gravité G
du nuage

25
Équivalence des deux critères
concernant la perte d’information

26
Équivalence des deux critères
concernant la perte d’information

27
Équivalence des deux critères
concernant la perte d’information

28
Les étapes pour déterminer la
composante principale :
• Centrage et réduction des données

• Déterminer les valeurs propres et les vecteurs


propres sur la base de la matrice de
corrélation entre les variables

• Déterminer les axes factoriels


• Sélectionner les composantes principales
29
Centrage des données
• Le centrage est réalisé de façon systématique en ACP
• Translation du centre de gravité du nuage sur l'origine

• Centrer les données ne modifie pas la forme du nuage


⇒toujours centrer
30
Réduction des données
Exemple:
Echantillon1 Echantillon2
Poids (g) Diamètre (mm) Poids (g) Diamètre (cm)
100 70 100 7
95 65 95 6,5
6.25 6.25 Variance (inertie) 6.25 0.0065

Dans le premier cas, quand on va chercher le


premier axe principale d’inertie, les variables poids
et diamètre influencent de manière égale le calcul
de l’axe (elles ont toutes deux une variance de 6.25)
31
Réduction des données
Exemple:
Mais dans le second cas, la variable poids « pèsera
beaucoup plus lourd » que la variable diamètre
dans le calcul, car 6.25 est bien plus grand que
0.0065.
C’est problématique, car le premier et le second
cas représentent exactement les mêmes pommes

Réduire les données

32
Réduction des données

• Plus la variable a un écart-type élevé, plus elle


apporte de l'inertie en projection et plus elle
«attire les axes».
• Or, l'écart type dépend directement de l'unité de
mesure...

• Pour éviter d'accorder une plus grande importance


aux variables exprimées arbitrairement avec de plus
grandes valeurs, on réduit les variables
33
Réduction des données

• Transformer nos variables de telle manière que leur


moyenne soit égale à 0 (centrage) et que leur
variance soit égale à 1 (la réduction)

• Après avoir centré les données, si on les divise par


leur écart type, alors on obtient des valeurs dont la
variance vaut 1

34
Réduction des données

• Lorsque les variables sont exprimées dans des


unités de mesure différentes,  réduction
systématique des données.

• En cas d’unités de mesure identiques ?


• Réduction : consiste à accorder une même
importance à chaque variable
• Non réduction : accorde plus d’importance
aux variables de forte dispersion
35
Centrage et réduction des données
• Matrice Centrée Réduite est obtenue par la formule
suivante :

• La moyenne est un outil de calcul permet de


résumer une liste de valeurs numériques en un seul
nombre réel sans tenir compte de l’ordre de la liste.

36
Centrage et réduction des données
• On appelle le point moyen ou centre de gravité
le vecteur G des moyennes arithmétiques de
chaque variable:

• Lorsqu’on analyse des variables centrées, ce


point moyen G sera le centre du repère
considéré:
37
Centrage et réduction des données
• L’écart type est un outil de calcul permet de
mesurer la dispersion des valeurs d’un
échantillon. C’est la racine carrée de la variance :

• Avec la variance est la moyenne des carrées des


écarts à la moyenne :

38
Centrage et réduction des données
• Réduire ou normer donne la même dispersion,
une même importance, à chaque variable (dans
l'espace, elles ont même longueur:1)
On dit que l'on réalise une ACP normée

• Ne pas réduire ou ne pas normer laisse à chaque


variable son écart-type initial ce qui conduit à
accorder à chaque variable une importance
proportionnelle à son écart-type.
On dit que l'on réalise une ACP non normée
(simple)
39
Recherche des axes factoriels

• La recherche d’axes portant le maximum d’inertie

équivaut à la construction de nouvelles variables

(auxquelles sont associés ces axes) de variance

maximale.

40
Recherche des axes factoriels

• En d’autres termes, on effectue un changement de


repère dans Rp de façon à se placer dans un
nouveau système de représentation où le premier
axe apporte le plus possible de l’inertie totale du
nuage, le deuxième axe le plus possible de l’inertie
non prise en compte par le premier axe, et ainsi de
suite.
41
Recherche des axes factoriels
• Cette réorganisation s’appuie sur la
diagonalisation de la matrice de variances-
covariances (matrice de corrélations pour des
données centrées-réduites).

• Les axes principaux sont ceux maximisant la


variance projetée: ce sont les vecteurs propres
normés associés aux plus grandes valeurs propres
de la matrice de covariance/corrélation.

42
Recherche des axes factoriels

- les vecteurs propres normés à 1(axes de


direction ou axes factoriels)

- les valeurs propres (inerties associées aux axes)

43
Recherche des axes factoriels

• Le premier axe est celui associé à la plus


grande valeur propre . On le note u1

• Le deuxième axe est celui associé à la


deuxième valeur propre . On le note u2
• ...

44
Matrice des variances covariances
• La Matrice des variances covariances permet de
mesure la liaison linéaire qui peut exister entre un
couple de variables statistiques
Var X1 Cov(X1,X2) Cov(X1,X3)
Cov(X2,X1) Var X2 Cov(X2,X3)
Cov(X3,X1) Cov(X3,X2) Var X3

• Si Cov(X2,X1) =0les variables X1 et X2 sont


indépendantes
• Si Cov(X2,X1) ≠ 0les variables X1 et X2 sont
dépendantes (existe une relation linéaire entre les
variable)
45
Matrice des variances covariances

• Obtenue par la formule suivante :

V=1/n * tMc * Mc

• Mc : Matrice centrée
• tMc : Matrice centrée transposée

46
Matrice des corrélations
• Matrice des corrélations entre variables
permet d’analyser les relations bilatérales
entre les variables :
• Obtenue par la formule suivante :

Γ=1/n *t Mcr * Mcr


Mcr : Matrice centrée réduite
tMcr : Matrice centrée réduite transposée

47
Calculer les valeurs propres
• Déterminer le polynôme caractéristique :
Det |X-λI ⎸
- Calculer les valeurs propres λ

- Déterminer les vecteurs propres orthogonaux


associés aux valeurs propres

48
Caractères des composantes principales

• Il n’y a pas de redondance d’information


entre deux composantes principales.

• Les composantes principales sont centrées.

• La variance d’une composante principale est


égale à l’inertie portée par l’axe principal qui
lui est associé.

49
Caractères des composantes principales
• Soit u1 est le vecteur propre associé à la première

grande valeur propre λ1. Soit donc Δu1 ce premier

axe principal.

• Si on veut chercher un deuxième axe Δu2 , où u2

est son vecteur unitaire orthogonal à u1 (c-à-d

<u1, u2>=0)
50
Caractères des composantes principales
• C-à-d le vecteur unitaire u2 de la droite Δu2 est le
vecteur propre associé à la deuxième plus grande
valeur propre λ2, il est orthogonal à u1.

• Ainsi de suite on cherche le troisième axe et ……


jusqu’au q ieme axe, q<p

51
Choix du nombre de facteur à retenir

Le critère qui permet de choisir le nombre

d’axes principaux à retenir utilisé est celui de

pourcentage inertie totale expliquée:

52
Caractères des composantes principales
• Soient Δu1 Δu2 … Δuq les q premiers axes principaux
de vecteurs unitaires u1, u2, …, uq.

• On appelle pourcentage d’inertie expliquée par


l’axe Δuj la quantité suivante définie par :

λj λj
=
IN(O) Tr(V) j=1..q
53
Représentation des individus
• L’inertie est donc aussi égale à la somme des
variances des variables étudiées.

• Remarque: dans le cas où les variables sont


centrées réduites, la variance de chaque variable
vaut 1.
• L’inertie totale est alors égale à p (nombre de
variables). 54
Représentation des individus
• Supposons que nous avons retenu q axes
principaux, q<=p. Alors on doit effectuer la
projection des individus xi ϵRp dans l-hyper plan H
formés par les q axes principaux.

• La valeur de la projection de xi sur l’axe Δul notéé


c(i,l) est donnée par
c(i,l)= xi * ul

55
Représentation des individus
• La jème composante principale fournit les
coordonnées des n individus sur le jème axe
principal.

• Si on désire une représentation plane des


individus, la meilleure sera celle réalisée
grâce aux deux premières composantes
principales.
56
Représentation d’individus
supplémentaires
• On désire savoir où placer sur un graphique un
nouveau individu xk dont on connait ses coordonnés
dans Rp
x1 k
x2 k
xk= .. ϵ Rp
xpk

Pour cela on calcule les coordonnées de xk dans


le système des axes principaux, c-à-d on calcule
les valeurs txk a1, txk a2, …, txk ap où les al sont les
facteurs principaux, lk=1,p, al=Mul 57
Représentation des variables
supplémentaires
• Les proximités entre les composantes
principales et les variables initiales sont
mesurées par les covariances, et sur tout les
corrélations.
• R(cj,xi) est le coefficient de corrélation
linéaire entre cj et xi

Cercle des corrélations

58
Représentation des variables supplémentaires
• Le cercle des corrélations est la projection du
nuage des variables sur le plan des
composantes principales.

corrélation =cosinus

• Les variables bien représentées sont celles qui


sont proches du cercle, celles qui sont proches
de l’origine sont mal représentées.
59
La qualité de la représentation des
individus
Pour avoir une idée sur la qualité de la
représentation de chacun de n individus dans
le sous espace constitué par les axes
principaux, on calcul les cos2 des angles
compris entre l’individu xi et leurs projections
dans les différents sous espaces.

60
La qualité de la représentation des
individus
x

α
O
u t

• Nous dirons qu’un individu est mieux


représenté lorsque le cos2 est proche de 1.
(La valeur 1 nous l’obtenons si l’on retenait p
axes)
61

Vous aimerez peut-être aussi