Chapitre 2:Réduction de dimension
des données
Manel sekma
Analyse en composantes principale [Link]@[Link]
1
références
1. Hotelling, Harold. 1933. “Analysis of a Complex of Statistical Variables into Principal
Components.” Journal of Educational Psychology 24 (6): 417.
2. James, G., D. Witten, T. Hastie, and R. Tibshirani. 2014. An Introduction to Statistical Learning:
With Applications in R. Springer Texts in Statistics. Springer New
York. [Link]
3. Kuhn, M., and K. Johnson. 2013. Applied Predictive Modeling. SpringerLink : Bücher. Springer
New York. [Link]
4. Lê, Sébastien, Julie Josse, and François Husson. 2008. “FactoMineR: A Package for Multivariate
Analysis.” Journal of Statistical Software 25 (1): 1–18. [Link]
5. Pearson, Karl. 1901. “LIII. On Lines and Planes of Closest Fit to Systems of Points in
Space.” The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science 2 (11):
559–72.
2
Plan de chapitre 2 : Réduction de dimension
des données
(Apprentissage non supervisé, PCA )
1. Introduction
2. Sélection de variables ou extraction de variables
3. Analyse en composantes principale
AU 2023-2024
3
Introduction
Dans certain applications , le nombre de variable utilisé pour représenter
les données est très élevé.
Cas de traitement d’images haute-résolution (un pixel est représenter par
++variables)
Analyse de données génomiques (centaines de milliers de positions du génome
peuvent être caractérisées)
……
Bien qu’une représentation des données contenant plus de variables soit
intuitivement plus riches, il est plus difficile d’apprendre un modèle performant dans
ces circonstances !
Réduction de dimension des données
4
Introduction
Cas d’utilisation
Réduire les coûts algorithmiques: Dataset avec beaucoup de variables
réduire la dimension =>réduire l’espace en mémoire & temps de calcul
Si certaines variables sont inutiles, ou redondantes
…..
5
Introduction
Cas d’utilisation
Visualiser des données avec beaucoup de variables
Cartographie spectrale des fleurs Iris de Fisher qui ont donné lieu à de nombreuses études en analyse des données.
6
Introduction
Cas d’utilisation
Lorsque plusieurs variables sont très corrélées: multi colinéarité
l’existence de corrélations élevées entre les variables indépendantes
(variables explicatives).
La multicolinéarité a pour conséquences :
- de fausser la précision de l’estimation
- des coefficients de régression
- de rendre sensible l’estimation
- des coefficients à de petites
- variations des données.
7
Introduction
Cas d’utilisation
Débruitage et compression d’images
Image haute dimension ou vidéo
8
Introduction
Représentation de données
Le but de la réduction de dimension est de transformer une
représentation X ∈ ℝ × des données
en une représentation :
∗ ×
∈ ℝ où ≪
9
Sélection de variables ou extraction de
variables
Deux possibilités pour réduire la dimension de nos données:
Sélection de variables: consiste à éliminer un nombre p-m de variables de
nos données. Les variables sélectionnées gardent ainsi leur signification
initiale, ce qui contribue à la lisibilité des modèles construits
ultérieurement.
Extraction de variables: qui consiste à créer m nouvelles variables à
partir des p variables initiales.
10
Sélection de variables ou extraction de
variables
Sélection de variables (feature selection)
Les méthodes de filtrage: basées sur des critères (par ex. minimisation
de la redondance entre variables, maximisation de l’information mutuelle
avec la classe à prédire) qui ne tiennent pas compte des résultats du
modèle décisionnel ultérieur.
Les méthodes de conteneur (wrapper methods): basées sur des mesures
des performances du modèle décisionnel qui emploie les variables
sélectionnées.
Les méthodes embarquées/intégrées : l’opération de sélection est
indissociable de la méthode de modélisation décisionnelle. (utilisé dans
des réseaux de neurones)
11
Sélection de variables ou extraction de
variables
Extraction de variables (feature extraction)
Les nouvelles variables sont obtenues par des méthodes qui peuvent être
1. Linéaires : trouver un sous-espace linéaire de dimension k dans l’espace
initial ℝ .
2. Non linéaires : trouver un sous-espace non linéaire de dimension k dans
l’espace initial.
Sous-espace bidimensionnel linéaire dans Sous-espace bidimensionnel non linéaire dans
l’espace tridimensionnel l’espace tridimensionnel
12
Sélection de variables ou extraction de
variables
Extraction de variables (feature extraction)
Méthodes factorielles linéaires:
L’analyse en composantes principales (ACP), méthode à caractère exploratoire,
adaptée à des données décrites par des variables quantitatives.
L’analyse factorielle discriminante (AFD), méthode à caractère exploratoire et
décisionnel, adaptée à des données décrites par des variables quantitatives et
appartenant à plusieurs classes.
L’analyse des correspondances multiples (ACM), méthode à caractère
exploratoire, adaptée à des données décrites par des variables nominales.
Analyse en composantes principale
Définition du PCA
Variantes de PCA
Comprendre l’intuition du PCA
Etape de calcule de l’ACP
14
Définition
Le PCA est un algorithme de réduction dimensionnelle non-supervisé
capable d’identifier les corrélations et pattern dans un jeu de donnée et de
le transformer en un ensemble de donnée avec un nombre réduit de
variable en minimisant la perte d’information.
Le PCA permet de mettre aussi en évidence la variabilité entre les
différentes données qui composent la dataset, mais aussi la liaison entre les
variables.
15
Comment ?
Tout cela est réalisé par la projection de la Dataset initiale dans
un espace réduit en utilisant les vecteurs propres.
La projection, c’est la fonction qui permet de représenter des
points dans un espace plus petit impliquant une perte
d’information.
16
Comment ?
Pour minimiser la perte :
Maximiser la variance de nos projections afin de pouvoir continuer à
distinguer les exemples les uns des autres dans leur nouvelle
représentation
Minimiser la distance entre nos données et nos projections
Maximisation de la variance: La
variance des données est maximale
selon l’axe indiqué par une flèche
Formellement, une nouvelle représentation de X est définie par une base orthonormée sur laquelle
projeter la matrice de données X
17
Définition
×
Une ACP de la matrice X ∈ ℝ est une transformation linéaire
orthogonale qui permet d’exprimer X dans une nouvelle base
orthonormée, de sorte que :
la plus grande variance de X par projection s’aligne sur le premier axe de
cette nouvelle base,
la seconde plus grande variance sur le deuxième axe,
et ainsi de suite…
Les axes de cette nouvelle base sont appelés
composantes principales
18
Variantes de PCA
Dans la matrice X des données brutes chaque ligne correspond à une observation
et chaque colonne à une variable initiale.
×
Dataset X∈ℝ
L’ACP connaît plusieurs variantes, selon le pré-traitement appliqué à la matrice X :
ACP générale
ACP centrée
ACP normée
19
Variantes de PCA
1- ACP générale
appliquée directement sur la matrice X
Interviennent dans l’analyse à la fois la position du nuage d’observations par rapport à
l’origine et la forme du nuage.
Cette variante est utilisée rarement, essentiellement pour tenir compte du zéro
naturel de certaines variables.
20
Variantes de PCA
2- ACP centrée
centrage préalable des variables.
La matrice analysée X’, est obtenue en transformant X pour que chaque variable
(chaque colonne) soit de moyenne nulle.
Cela revient à s’intéresser à la forme du nuage d’individus par rapport à son centre
de gravité.
Cette variante est utilisée lorsque les variables initiales sont directement
comparables (de même nature, intervalles de variation comparables).
21
Variantes de PCA
3- ACP normée
réduction préalable des variables.
La matrice analysée X’, est obtenue en transformant X pour que chaque variable
(chaque colonne) soit de moyenne nulle et d’écart-type unitaire.
On s’intéresse donc à la forme du nuage d’individus après centrage et réduction
des variables.
Cette variante (la plus fréquemment rencontrée) est employée lorsque les
variables (toutes quantitatives) sont de nature différente ou présentent des
intervalles de variation très différents.
22
Analyse en composantes principale
Définition du PCA
Variantes de PCA
Comprendre l’intuition du PCA
Mathématique de l’ACP
23
Rappel :Une base orthonormée.
Soit l'espace vectoriel euclidien ℝ²,
Le produit scalaire standard défini par :
⟨(x1,y1),(x2,y2)⟩=x1x2+y1y2
une base orthonormée dans cet espace qui est constituée des vecteurs
unitaires suivants :
e1=(1,0)
e2=(0,1)
Vérifier si cette base est orthonormée :
Orthogonalité : Les vecteurs de cette base sont orthogonaux car leur produit
scalaire est nul : e1×e2=(1)(0)+(0)(1)=0
Norme unitaire : La norme de chaque vecteur de cette base est égale à 1 :
∣∣e1∣∣= 1²+0² =1
∣∣e2∣∣= = 0²+1² =1
24
PCA à traves l’exemple
Dataset
(X=Maths,Y=science)
La représentation 2 D de données
25
PCA à traves l’exemple
Calcule de la moyenne des données (la croix rouge)
26
PCA à traves l’exemple
Soustrait de la moyenne à tous les points => centrer les données : la dispersion des
données par rapport à leur nouvelle moyenne reste la même, et donc la variance reste
inchangée.
(X=Maths,Y=science)
27
PCA à traves l’exemple
(X=Maths,Y=science)
28
PCA à traves l’exemple
Cherchant la projection qui minimise la distance avec les différents points
29
PCA à traves l’exemple
Cette droite minimise le mieux la distance entre les points.
Minimiser l’équation de min square erreur (par exemple MSE)
consiste à minimiser la moyenne de distance au carré entre les points projetés sur la droite
et les points qui compose le jeu de données:
30
PCA à traves l’exemple
La première composante PC1
31
PCA à traves l’exemple
Normaliser le vecteur par sa norme (√(x² + y²) )pour obtenir un vecteur unitaire
car on cherche une base orthonormée
Norme=√(1² + 2²) = √(5)
32
PCA à traves l’exemple
La deuxième composante PC2
33
PCA à traves l’exemple
34
PCA à traves l’exemple
Calcule des valeurs propres et les vecteurs propres de la
matrice de covariance.
35
PCA à traves l’exemple
Maintenant, pour obtenir les composantes principales,
nous projetons les données originales sur les vecteurs
propres.
36
Projetons les données originales sur les
vecteurs propres.
Pour CP1: Pour CP2:
37
Calcule des variances des composantes
principales,
C'est-à-dire que la variance de la première composante principale VAR(CP1)
est d'environ 3.43 et la variance de la deuxième composante principale
VAR(CP2) est d'environ 0.588.
38
Les pourcentages de variance expliquée par
chaque composante principale,
Le ratio de variance expliquée pour chaque composante principale est
calculé en divisant la variance de cette composante principale par la somme
totale des variances des composantes principales.
environ 85.4% de la variance totale est expliquée par la CP1, tandis que environ
14.6% de la variance totale est expliquée par la CP2.
39
PCA à traves l’exemple
40
Résumé: calcule de ACP
1. Standardisation des données : Les données sont standardisées
pour avoir une moyenne de zéro et un écart-type de un, assurant
leur comparabilité.
2. Matrice de covariance : La matrice de covariance est calculée à
partir des données standardisées pour mesurer les covariances
entre toutes les paires de variables.
3. Décomposition en valeurs propres : Les vecteurs propres et
les valeurs propres sont obtenus à partir de la matrice de
covariance, révélant les composantes principales:
La PC1 est le premier vecteur propre associé à la plus grande valeur propre.
41
Résumé: calcule de ACP
4. Calcul de la PC1 : La première composante
principale est calculée en projetant les données
standardisées sur le vecteur propre de la PC1.
Cela donne une valeur pour chaque observation, représentant sa
position le long de la PC1.
La PC1 représente la direction de plus grande variabilité dans les
données, utile pour la réduction de dimensionnalité et
l'exploration des données.
42