0% ont trouvé ce document utile (0 vote)

100 vues42 pages

Variance en Analyse en Composantes Principales

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

100 vues42 pages

Variance en Analyse en Composantes Principales

Transféré par

Ones Jabb

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 2:Réduction de dimension

des données
Manel sekma
Analyse en composantes principale [Link]@[Link]

1
références
1. Hotelling, Harold. 1933. “Analysis of a Complex of Statistical Variables into Principal
Components.” Journal of Educational Psychology 24 (6): 417.

2. James, G., D. Witten, T. Hastie, and R. Tibshirani. 2014. An Introduction to Statistical Learning:
With Applications in R. Springer Texts in Statistics. Springer New
York. [Link]

3. Kuhn, M., and K. Johnson. 2013. Applied Predictive Modeling. SpringerLink : Bücher. Springer
New York. [Link]

4. Lê, Sébastien, Julie Josse, and François Husson. 2008. “FactoMineR: A Package for Multivariate
Analysis.” Journal of Statistical Software 25 (1): 1–18. [Link]

5. Pearson, Karl. 1901. “LIII. On Lines and Planes of Closest Fit to Systems of Points in
Space.” The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science 2 (11):
559–72.

2
Plan de chapitre 2 : Réduction de dimension
des données

(Apprentissage non supervisé, PCA )

1. Introduction

2. Sélection de variables ou extraction de variables

3. Analyse en composantes principale

AU 2023-2024

3
Introduction
 Dans certain applications , le nombre de variable utilisé pour représenter
les données est très élevé.
 Cas de traitement d’images haute-résolution (un pixel est représenter par
++variables)

 Analyse de données génomiques (centaines de milliers de positions du génome

peuvent être caractérisées)

 ……

 Bien qu’une représentation des données contenant plus de variables soit

intuitivement plus riches, il est plus difficile d’apprendre un modèle performant dans
ces circonstances !

Réduction de dimension des données

4
Introduction
Cas d’utilisation
 Réduire les coûts algorithmiques: Dataset avec beaucoup de variables
 réduire la dimension =>réduire l’espace en mémoire & temps de calcul

 Si certaines variables sont inutiles, ou redondantes

 …..

5
Introduction
Cas d’utilisation
 Visualiser des données avec beaucoup de variables

Cartographie spectrale des fleurs Iris de Fisher qui ont donné lieu à de nombreuses études en analyse des données.

6
Introduction
Cas d’utilisation

 Lorsque plusieurs variables sont très corrélées: multi colinéarité

 l’existence de corrélations élevées entre les variables indépendantes
(variables explicatives).

 La multicolinéarité a pour conséquences :

- de fausser la précision de l’estimation

- des coefficients de régression

- de rendre sensible l’estimation

- des coefficients à de petites

- variations des données.

7
Introduction
Cas d’utilisation
 Débruitage et compression d’images
 Image haute dimension ou vidéo

8
Introduction
Représentation de données

 Le but de la réduction de dimension est de transformer une

représentation X ∈ ℝ × des données

en une représentation :

∗ ×
∈ ℝ où ≪

9
Sélection de variables ou extraction de
variables

 Deux possibilités pour réduire la dimension de nos données:

 Sélection de variables: consiste à éliminer un nombre p-m de variables de

nos données. Les variables sélectionnées gardent ainsi leur signification
initiale, ce qui contribue à la lisibilité des modèles construits
ultérieurement.

 Extraction de variables: qui consiste à créer m nouvelles variables à

partir des p variables initiales.

10
Sélection de variables ou extraction de
variables
 Sélection de variables (feature selection)
 Les méthodes de filtrage: basées sur des critères (par ex. minimisation
de la redondance entre variables, maximisation de l’information mutuelle
avec la classe à prédire) qui ne tiennent pas compte des résultats du
modèle décisionnel ultérieur.

 Les méthodes de conteneur (wrapper methods): basées sur des mesures

des performances du modèle décisionnel qui emploie les variables
sélectionnées.

 Les méthodes embarquées/intégrées : l’opération de sélection est

indissociable de la méthode de modélisation décisionnelle. (utilisé dans
des réseaux de neurones)

11
Sélection de variables ou extraction de
variables
Extraction de variables (feature extraction)
Les nouvelles variables sont obtenues par des méthodes qui peuvent être
1. Linéaires : trouver un sous-espace linéaire de dimension k dans l’espace
initial ℝ .
2. Non linéaires : trouver un sous-espace non linéaire de dimension k dans
l’espace initial.

Sous-espace bidimensionnel linéaire dans Sous-espace bidimensionnel non linéaire dans

l’espace tridimensionnel l’espace tridimensionnel

12
Sélection de variables ou extraction de
variables
Extraction de variables (feature extraction)
Méthodes factorielles linéaires:

 L’analyse en composantes principales (ACP), méthode à caractère exploratoire,

adaptée à des données décrites par des variables quantitatives.

 L’analyse factorielle discriminante (AFD), méthode à caractère exploratoire et

décisionnel, adaptée à des données décrites par des variables quantitatives et
appartenant à plusieurs classes.

 L’analyse des correspondances multiples (ACM), méthode à caractère

exploratoire, adaptée à des données décrites par des variables nominales.
Analyse en composantes principale

 Définition du PCA
 Variantes de PCA
 Comprendre l’intuition du PCA
 Etape de calcule de l’ACP

14
Définition

 Le PCA est un algorithme de réduction dimensionnelle non-supervisé

capable d’identifier les corrélations et pattern dans un jeu de donnée et de
le transformer en un ensemble de donnée avec un nombre réduit de
variable en minimisant la perte d’information.

 Le PCA permet de mettre aussi en évidence la variabilité entre les

différentes données qui composent la dataset, mais aussi la liaison entre les
variables.

15
Comment ?

 Tout cela est réalisé par la projection de la Dataset initiale dans

un espace réduit en utilisant les vecteurs propres.
 La projection, c’est la fonction qui permet de représenter des
points dans un espace plus petit impliquant une perte
d’information.

16
Comment ?
 Pour minimiser la perte :
 Maximiser la variance de nos projections afin de pouvoir continuer à
distinguer les exemples les uns des autres dans leur nouvelle
représentation
 Minimiser la distance entre nos données et nos projections

Maximisation de la variance: La
variance des données est maximale
selon l’axe indiqué par une flèche

Formellement, une nouvelle représentation de X est définie par une base orthonormée sur laquelle
projeter la matrice de données X

17
Définition
×
 Une ACP de la matrice X ∈ ℝ est une transformation linéaire
orthogonale qui permet d’exprimer X dans une nouvelle base
orthonormée, de sorte que :
 la plus grande variance de X par projection s’aligne sur le premier axe de
cette nouvelle base,

 la seconde plus grande variance sur le deuxième axe,

 et ainsi de suite…

 Les axes de cette nouvelle base sont appelés

composantes principales

18
Variantes de PCA
Dans la matrice X des données brutes chaque ligne correspond à une observation
et chaque colonne à une variable initiale.

×
Dataset X∈ℝ

L’ACP connaît plusieurs variantes, selon le pré-traitement appliqué à la matrice X :

 ACP générale

 ACP centrée

 ACP normée
19
Variantes de PCA
1- ACP générale
 appliquée directement sur la matrice X
 Interviennent dans l’analyse à la fois la position du nuage d’observations par rapport à
l’origine et la forme du nuage.
 Cette variante est utilisée rarement, essentiellement pour tenir compte du zéro
naturel de certaines variables.

20
Variantes de PCA
2- ACP centrée
 centrage préalable des variables.
 La matrice analysée X’, est obtenue en transformant X pour que chaque variable
(chaque colonne) soit de moyenne nulle.
 Cela revient à s’intéresser à la forme du nuage d’individus par rapport à son centre
de gravité.
 Cette variante est utilisée lorsque les variables initiales sont directement
comparables (de même nature, intervalles de variation comparables).

21
Variantes de PCA
3- ACP normée
 réduction préalable des variables.
 La matrice analysée X’, est obtenue en transformant X pour que chaque variable
(chaque colonne) soit de moyenne nulle et d’écart-type unitaire.
 On s’intéresse donc à la forme du nuage d’individus après centrage et réduction
des variables.
 Cette variante (la plus fréquemment rencontrée) est employée lorsque les
variables (toutes quantitatives) sont de nature différente ou présentent des
intervalles de variation très différents.

22
Analyse en composantes principale

 Définition du PCA
 Variantes de PCA
 Comprendre l’intuition du PCA
 Mathématique de l’ACP

23
Rappel :Une base orthonormée.
 Soit l'espace vectoriel euclidien ℝ²,
Le produit scalaire standard défini par :
⟨(x1,y1),(x2,y2)⟩=x1x2+y1y2
 une base orthonormée dans cet espace qui est constituée des vecteurs
unitaires suivants :
e1=(1,0)
e2=(0,1)
 Vérifier si cette base est orthonormée :
 Orthogonalité : Les vecteurs de cette base sont orthogonaux car leur produit
scalaire est nul : e1×e2=(1)(0)+(0)(1)=0
 Norme unitaire : La norme de chaque vecteur de cette base est égale à 1 :
∣∣e1∣∣= 1²+0² =1
∣∣e2∣∣= = 0²+1² =1
24
PCA à traves l’exemple

Dataset

(X=Maths,Y=science)

La représentation 2 D de données

25
PCA à traves l’exemple
 Calcule de la moyenne des données (la croix rouge)

26
PCA à traves l’exemple
 Soustrait de la moyenne à tous les points => centrer les données : la dispersion des
données par rapport à leur nouvelle moyenne reste la même, et donc la variance reste
inchangée.
(X=Maths,Y=science)

27
PCA à traves l’exemple
(X=Maths,Y=science)

28
PCA à traves l’exemple
 Cherchant la projection qui minimise la distance avec les différents points

29
PCA à traves l’exemple
 Cette droite minimise le mieux la distance entre les points.
 Minimiser l’équation de min square erreur (par exemple MSE)
 consiste à minimiser la moyenne de distance au carré entre les points projetés sur la droite
et les points qui compose le jeu de données:

30
PCA à traves l’exemple
La première composante PC1

31
PCA à traves l’exemple
Normaliser le vecteur par sa norme (√(x² + y²) )pour obtenir un vecteur unitaire
car on cherche une base orthonormée
Norme=√(1² + 2²) = √(5)

32
PCA à traves l’exemple

La deuxième composante PC2

33
PCA à traves l’exemple

34
PCA à traves l’exemple
 Calcule des valeurs propres et les vecteurs propres de la
matrice de covariance.

35
PCA à traves l’exemple
 Maintenant, pour obtenir les composantes principales,
nous projetons les données originales sur les vecteurs
propres.

36
Projetons les données originales sur les
vecteurs propres.
Pour CP1: Pour CP2:

37
Calcule des variances des composantes
principales,

 C'est-à-dire que la variance de la première composante principale VAR(CP1)

est d'environ 3.43 et la variance de la deuxième composante principale
VAR(CP2) est d'environ 0.588.

38
Les pourcentages de variance expliquée par
chaque composante principale,
 Le ratio de variance expliquée pour chaque composante principale est
calculé en divisant la variance de cette composante principale par la somme
totale des variances des composantes principales.

 environ 85.4% de la variance totale est expliquée par la CP1, tandis que environ
14.6% de la variance totale est expliquée par la CP2.
39
PCA à traves l’exemple

40
Résumé: calcule de ACP

1. Standardisation des données : Les données sont standardisées

pour avoir une moyenne de zéro et un écart-type de un, assurant
leur comparabilité.

2. Matrice de covariance : La matrice de covariance est calculée à

partir des données standardisées pour mesurer les covariances
entre toutes les paires de variables.

3. Décomposition en valeurs propres : Les vecteurs propres et

les valeurs propres sont obtenus à partir de la matrice de
covariance, révélant les composantes principales:
La PC1 est le premier vecteur propre associé à la plus grande valeur propre.

41
Résumé: calcule de ACP

4. Calcul de la PC1 : La première composante

principale est calculée en projetant les données
standardisées sur le vecteur propre de la PC1.

 Cela donne une valeur pour chaque observation, représentant sa

position le long de la PC1.
 La PC1 représente la direction de plus grande variabilité dans les
données, utile pour la réduction de dimensionnalité et
l'exploration des données.

Vous aimerez peut-être aussi

Chapitre2 PCA
Pas encore d'évaluation
Chapitre2 PCA
36 pages
Chap08.reduction Dimensions
Pas encore d'évaluation
Chap08.reduction Dimensions
40 pages
Chapitre 3: Analyse en Composantes Principales (ACP) : Enseignante: Raghda Jouirou
Pas encore d'évaluation
Chapitre 3: Analyse en Composantes Principales (ACP) : Enseignante: Raghda Jouirou
33 pages
Méthodes d'Analyse des Données
Pas encore d'évaluation
Méthodes d'Analyse des Données
97 pages
Analyse des Données et Méthodes Statistiques
Pas encore d'évaluation
Analyse des Données et Méthodes Statistiques
129 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
11 pages
Réduction de Dimension & PCA
Pas encore d'évaluation
Réduction de Dimension & PCA
16 pages
ACP Cours 2021
Pas encore d'évaluation
ACP Cours 2021
32 pages
Machine Learning - 2 Analyse en Composantes Principale
Pas encore d'évaluation
Machine Learning - 2 Analyse en Composantes Principale
37 pages
Méthodes d'Analyse des Données Statistiques
Pas encore d'évaluation
Méthodes d'Analyse des Données Statistiques
60 pages
Analyse en Composantes Principales - Wikipédia
Pas encore d'évaluation
Analyse en Composantes Principales - Wikipédia
69 pages
2 Analyse en Composantes Principales - Learn Machine Learning
Pas encore d'évaluation
2 Analyse en Composantes Principales - Learn Machine Learning
39 pages
Introduction à l'ACP pour étudiants
Pas encore d'évaluation
Introduction à l'ACP pour étudiants
61 pages
Techniques de réduction de dimensionnalité
Pas encore d'évaluation
Techniques de réduction de dimensionnalité
15 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
37 pages
Méthodes d'Analyse en Composantes Principales
Pas encore d'évaluation
Méthodes d'Analyse en Composantes Principales
83 pages
Chapitre 2 L'Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Chapitre 2 L'Analyse en Composantes Principales (ACP)
15 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
14 pages
Analyse Et Sécurité de Données Multimédia
Pas encore d'évaluation
Analyse Et Sécurité de Données Multimédia
35 pages
Guide ACP pour la Réduction de Données
Pas encore d'évaluation
Guide ACP pour la Réduction de Données
12 pages
Analyse de Données avec SPSS
Pas encore d'évaluation
Analyse de Données avec SPSS
62 pages
Analysse Des Données Ecole D'été AB UCAD 2022
Pas encore d'évaluation
Analysse Des Données Ecole D'été AB UCAD 2022
52 pages
Présentation ACP
Pas encore d'évaluation
Présentation ACP
85 pages
Analyse en Composantes Principales - Wikipédia
Pas encore d'évaluation
Analyse en Composantes Principales - Wikipédia
75 pages
Cours - ACP ACM
100% (2)
Cours - ACP ACM
89 pages
Prétraitement des données en IA
Pas encore d'évaluation
Prétraitement des données en IA
38 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
29 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
26 pages
Analyse Factorielle en Statistiques Santé
Pas encore d'évaluation
Analyse Factorielle en Statistiques Santé
4 pages
Cours Danalyse Des Donnees Complet
Pas encore d'évaluation
Cours Danalyse Des Donnees Complet
77 pages
Formation sur l'Analyse en Composantes
100% (1)
Formation sur l'Analyse en Composantes
38 pages
Tutoriel ACP en R : Guide Complet
Pas encore d'évaluation
Tutoriel ACP en R : Guide Complet
29 pages
Analyse des Données Multivariées
Pas encore d'évaluation
Analyse des Données Multivariées
20 pages
Datamining Cours 04
Pas encore d'évaluation
Datamining Cours 04
18 pages
Analyse Factorielle des Données 2024-2025
Pas encore d'évaluation
Analyse Factorielle des Données 2024-2025
123 pages
Introduction à l'analyse des données
Pas encore d'évaluation
Introduction à l'analyse des données
90 pages
12186ds-Cours+Partie2+Analyse+de+données - (1) - 241016 - 155244
Pas encore d'évaluation
12186ds-Cours+Partie2+Analyse+de+données - (1) - 241016 - 155244
30 pages
Méthodes d'Analyse Multidimensionnelle
Pas encore d'évaluation
Méthodes d'Analyse Multidimensionnelle
25 pages
2 Cours Methodes Factorielles
Pas encore d'évaluation
2 Cours Methodes Factorielles
32 pages
Analyses multidimensionnelles en informatique
Pas encore d'évaluation
Analyses multidimensionnelles en informatique
42 pages
Introduction aux analyses multidimensionnelles
100% (1)
Introduction aux analyses multidimensionnelles
42 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
10 pages
ACP : Centrage et Réduction des Données
100% (1)
ACP : Centrage et Réduction des Données
25 pages
Cours ACP
Pas encore d'évaluation
Cours ACP
29 pages
Analyse de données démographiques IPSA
Pas encore d'évaluation
Analyse de données démographiques IPSA
29 pages
Analyse de Donnees: Chapitre II Analyse en Composantes Principales
Pas encore d'évaluation
Analyse de Donnees: Chapitre II Analyse en Composantes Principales
15 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
54 pages
Projet
Pas encore d'évaluation
Projet
42 pages
Méthode ACP : Réduction de dimension
Pas encore d'évaluation
Méthode ACP : Réduction de dimension
12 pages
Introduction aux analyses multidimensionnelles
Pas encore d'évaluation
Introduction aux analyses multidimensionnelles
35 pages
Add Intro Et Acp
Pas encore d'évaluation
Add Intro Et Acp
39 pages
Support de Cours Module ADD Univ Annaba (Tchi Drive)
Pas encore d'évaluation
Support de Cours Module ADD Univ Annaba (Tchi Drive)
104 pages
Introduction à l'Analyse des Données
Pas encore d'évaluation
Introduction à l'Analyse des Données
7 pages
Introduction à l'Analyse de Données
Pas encore d'évaluation
Introduction à l'Analyse de Données
33 pages
Étapes de l'Analyse en Composantes Principales
Pas encore d'évaluation
Étapes de l'Analyse en Composantes Principales
49 pages
Support de Cours D'analyse Des Données - CH1 Complet
Pas encore d'évaluation
Support de Cours D'analyse Des Données - CH1 Complet
15 pages
Mise en œuvre de l'ACP en analyse de données
Pas encore d'évaluation
Mise en œuvre de l'ACP en analyse de données
27 pages
Réduction de Dimension et ACP
Pas encore d'évaluation
Réduction de Dimension et ACP
21 pages
Cours de Maths Terminale D - Préparation Bac
96% (23)
Cours de Maths Terminale D - Préparation Bac
39 pages
B 22650775
67% (3)
B 22650775
330 pages
Outils d'Induction en Géophysique
Pas encore d'évaluation
Outils d'Induction en Géophysique
14 pages
Flexion Plane : Concepts et Calculs
Pas encore d'évaluation
Flexion Plane : Concepts et Calculs
2 pages
Dimensionnement moteur asynchrone triphasé
Pas encore d'évaluation
Dimensionnement moteur asynchrone triphasé
2 pages
Mode d'emploi de la machine agricole
Pas encore d'évaluation
Mode d'emploi de la machine agricole
118 pages
Thermodynamique : Fonctions d'état et travail
Pas encore d'évaluation
Thermodynamique : Fonctions d'état et travail
22 pages
Introduction aux systèmes d'exploitation
Pas encore d'évaluation
Introduction aux systèmes d'exploitation
42 pages
s2016 Crpe Math gr1 575638
Pas encore d'évaluation
s2016 Crpe Math gr1 575638
11 pages
Uml Diagramme de Classes & Diagramme D'objets
Pas encore d'évaluation
Uml Diagramme de Classes & Diagramme D'objets
25 pages
TD Racine Carree Et Theoreme de Thales 2022-2023
Pas encore d'évaluation
TD Racine Carree Et Theoreme de Thales 2022-2023
6 pages
Communications, 16, 1970. Recherches Rhétoriques
Pas encore d'évaluation
Communications, 16, 1970. Recherches Rhétoriques
264 pages
INSULINOTHERAPIE
Pas encore d'évaluation
INSULINOTHERAPIE
3 pages
Exercices de cinématique en mécanique
50% (2)
Exercices de cinématique en mécanique
2 pages
Moteur Pas À Pas
Pas encore d'évaluation
Moteur Pas À Pas
71 pages
AL4MA51TEWB0109 Sequence 06 Ecritures Fractionnaires
Pas encore d'évaluation
AL4MA51TEWB0109 Sequence 06 Ecritures Fractionnaires
23 pages
Correction td3
67% (3)
Correction td3
5 pages
Exercices de logique pour MPSI
100% (3)
Exercices de logique pour MPSI
404 pages
Diagrammes de Classes UML : Concepts et Exemples
Pas encore d'évaluation
Diagrammes de Classes UML : Concepts et Exemples
28 pages
TP Maintenance 3
Pas encore d'évaluation
TP Maintenance 3
6 pages
Malaxeur électrotechnique : fonctionnement et matériel
Pas encore d'évaluation
Malaxeur électrotechnique : fonctionnement et matériel
61 pages
Pertes de charge en mécanique des fluides
Pas encore d'évaluation
Pertes de charge en mécanique des fluides
50 pages
Masse et Volume : Proportionnalité
Pas encore d'évaluation
Masse et Volume : Proportionnalité
3 pages
Algorithmes: Max, Probabilités, Tarifs
Pas encore d'évaluation
Algorithmes: Max, Probabilités, Tarifs
2 pages
Système D'injection Des Moteurs J7T
Pas encore d'évaluation
Système D'injection Des Moteurs J7T
7 pages
Barycentre 2011 1ére S2 ANNEE SCOLAIRE
Pas encore d'évaluation
Barycentre 2011 1ére S2 ANNEE SCOLAIRE
3 pages
Consommation de matière organique et énergie
Pas encore d'évaluation
Consommation de matière organique et énergie
14 pages
Analyse des Algorithmes CDMA en MATLAB
Pas encore d'évaluation
Analyse des Algorithmes CDMA en MATLAB
9 pages
02 - Algorithme de Chiffrement DES
Pas encore d'évaluation
02 - Algorithme de Chiffrement DES
30 pages
Test de Puissances Mathématiques 6ème Année
Pas encore d'évaluation
Test de Puissances Mathématiques 6ème Année
4 pages