Chapitre 4 - ACP - SMI - S6 - 2022 - 2023

Le chapitre 4 présente l'Analyse en Composantes Principales (ACP), une méthode d'analyse multivariée visant à réduire la dimensionnalité des données tout en conservant l'information essentielle. Il aborde les principes, les objectifs, les fondements mathématiques, ainsi que les étapes de réalisation de l'ACP, notamment la standardisation des données et le calcul des vecteurs et valeurs propres. L'ACP est largement utilisée dans divers domaines tels que la finance, la biologie et le marketing pour identifier les relations entre variables et simplifier l'analyse des données.

Transféré par

abdo.elyazidi2018

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

39 vues49 pages

Chapitre 4 - ACP - SMI - S6 - 2022 - 2023

Transféré par

abdo.elyazidi2018

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 4

Analyse en Composantes
Principales
(ACP)
SMI
2022-2023
Azzedine DLIOU
FSA Ait Melloul
Université Ibn Zohr
Plan
01 Généralités
• Introduction
• Principe de la méthode
• Objectifs
• Domaines d’application
• Prérequis mathématiques

02 Fondements de l’ACP
• Matrice de données
• Matrice de covariance
• Vecteurs & Valeurs propres

03 Réalisation de l’ACP
• Standardisation des données
• Calcul des Vecteurs & Valeurs propres
• Choix du nombre de composantes principales
• Réduction de la dimensionnalité
Plan
04 Exemple
• Étape 1
• Étape 2
• Étape 3
• Étape 4
• Étape 5

05 Conclusion
• Avantages
• Inconvénients
• Perspectives
Généralités
Introduction
 L'Analyse en Composantes Principales (ACP) est une technique d'analyse multivariée qui
permet de réduire la dimensionnalité des données en identifiant les relations linéaires entre
les variables.
 L'objectif de l'ACP est de transformer un ensemble de variables corrélées en un nouvel
ensemble de variables non corrélées appelées "composantes principales", tout en
conservant autant d'informations que possible.
 L'ACP fonctionne en calculant la matrice de covariance des variables, puis en diagonalisant
cette matrice pour trouver les vecteurs propres et les valeurs propres associées.
 Les vecteurs propres représentent les directions dans lesquelles les données varient le plus,
et les valeurs propres mesurent l'importance de ces directions.
 Les vecteurs propres sont utilisés pour former les composantes principales, qui sont des
combinaisons linéaires des variables originales.
Introduction
 Les valeurs propres indiquent l'importance relative de chaque composante principale
en termes de variance expliquée.
 En général, les premières composantes principales expliquent la majeure partie de la
variance dans les données, tandis que les composantes suivantes expliquent de moins en
moins de variance.
 Les composantes principales peuvent être utilisées pour :
o Visualiser les relations entre les variables,
o Identifier les groupes de variables qui sont corrélés,
o Identifier les variables qui sont les plus importantes pour expliquer les différences
entre les individus ou les observations.
 Elle est également souvent utilisée comme prétraitement de données avant
l'application d'autres techniques d'analyse multivariée.
Principe de la méthode
 Le principe de l'Analyse en Composantes Principales (ACP) est de transformer un
ensemble de variables initiales (appelées aussi descripteurs) en un ensemble de
nouvelles variables (appelées composantes principales) qui sont des combinaisons
linéaires des descripteurs initiaux.
 Ces composantes principales sont ordonnées en fonction de leur importance et sont
choisies de manière à expliquer la variabilité totale des données avec un nombre
minimal de composantes.
 L'objectif de cette transformation est de simplifier la description des données en
réduisant le nombre de variables nécessaires pour les décrire, tout en conservant autant
d'informations que possible.
Principe de la méthode
 Plus précisément, l'ACP cherche à déterminer une projection des données dans un espace de
dimension inférieure, tout en conservant au maximum l'information contenue dans les
données initiales.
 Cette projection se fait en calculant les vecteurs propres de la matrice de covariance des
données, qui représentent les directions de plus grande variabilité dans les données.
 Les composantes principales sont ensuite obtenues en projetant les données dans ces
directions.
 En résumé, l'ACP permet de réduire la dimensionnalité des données tout en préservant les
caractéristiques essentielles des données, c’est-à-dire le maximum d'informations possibles.
Cela permet de simplifier la description des données et de faciliter leur visualisation, leur
analyse et leur interprétation.
Objectifs
 Les objectifs de l'ACP sont les suivants :
o Réduire la complexité des données : en réduisant la dimensionnalité des données, l'ACP
permet de mieux visualiser et comprendre les relations entre les variables.
o Identifier les variables les plus importantes : l'ACP permet d'identifier les variables qui ont le
plus d'influence sur la variance des données.
o Déterminer les corrélations entre les variables : l'ACP permet de mesurer les corrélations
entre les variables et d'identifier les groupes de variables qui sont les plus fortement
corrélées.
o Détection des outliers : l'ACP permet également de détecter les outliers et les valeurs
extrêmes qui peuvent avoir un impact important sur les résultats de l'analyse.
o Faciliter l'analyse des données : en réduisant la dimensionnalité des données, l'ACP facilite
l'analyse des données et permet d'obtenir des résultats plus facilement interprétables.
Domaines d’application
 L'ACP est une méthode d'analyse de données largement utilisée dans de nombreux
domaines. Voici quelques exemples d'applications de l'ACP :
o Analyse de données financières : L'ACP est souvent utilisée pour réduire la
dimensionnalité des données financières et identifier les principales sources de variation
dans les données.
o Biologie : L'ACP est utilisée pour analyser les données génomiques et protéomiques afin
d'identifier les gènes ou les protéines les plus importants et de comprendre les relations
entre eux.
o Marketing : L'ACP est utilisée pour analyser les données de marché et identifier les
segments de marché les plus importants.
o Sciences sociales : L'ACP est utilisée pour analyser les données sociologiques et
psychologiques pour comprendre les relations entre les variables.
Domaines d’application
o Analyse de données environnementales : L'ACP est utilisée pour analyser les
données environnementales et identifier les principales sources de variation dans les
données.
o Analyse de données d'imagerie : L'ACP est utilisée pour analyser les données
d'imagerie pour identifier les caractéristiques les plus importantes et réduire la
dimensionnalité des données.
o Reconnaissance de formes : L'ACP est utilisée pour extraire les caractéristiques les
plus importantes dans les données et les utiliser pour la reconnaissance de formes.
 Ces exemples montrent que l'ACP est une méthode très polyvalente qui peut être
utilisée dans de nombreux domaines pour analyser les données et identifier les
principales sources de variation dans les données.
Prérequis Mathématiques
 Avant de commencer l'étude de l'Analyse en Composantes Principales (ACP), il est
nécessaire de maîtriser certains concepts mathématiques.
 En particulier, les prérequis suivants sont recommandés pour une compréhension
optimale du cours :
o Algèbre linéaire : connaissances de base en matrices, vecteurs, espaces
vectoriels, transformations linéaires, diagonalisation, vecteurs propres, valeurs
propres.
o Statistiques : notions de moyenne, variance, covariance, corrélation, loi normale.
o Calcul différentiel et intégral : dérivées, intégrales, fonctions continues et
dérivables.
Fondements
de
l'ACP
Matrice de données
 La matrice de données est la base de l'Analyse en Composantes Principales (ACP).
 Elle est représentée par une matrice rectangulaire X de dimensions n x p, où n est le
nombre d'individus et p est le nombre de variables.
 Chaque ligne de la matrice X correspond à un individu et chaque colonne correspond à une
variable.
 La matrice de données est appelée "matrice des observations" en statistiques et "tableau
de données" en analyse multivariée.
 Il est important de noter que les données doivent être centrées pour effectuer une ACP.
 Cela signifie que la moyenne de chaque variable doit être soustraite de chaque
observation pour centrer les données autour de zéro.
 La matrice de données est ensuite utilisée pour calculer la matrice de covariance, qui est
un élément clé de l'ACP.
Matrice de Covariance
 La matrice de covariance mesure les relations linéaires entre les variables et permet de déterminer les
vecteurs et valeurs propres de la matrice, qui sont utilisés pour construire les composantes principales.
 La matrice de covariance est une matrice carrée symétrique qui mesure les relations linéaires entre les
variables dans la matrice de données.
 Elle est calculée en utilisant la formule suivante :
1
Cov(X) = * (X - m)T * (X - m)
n−1
où :
 m : Vecteur des moyennes de chaque variable (c.-à-d. le vecteur de taille p contenant les
moyennes de chaque colonne de la matrice de données X),
 T : représente la transposée,
 n : Nombre d'individus dans la matrice de données.
 NB :
Matrice de Covariance
 La matrice de covariance fournit des informations sur la variance et la covariance de
chaque variable.
 Les valeurs diagonales de la matrice représentent les variances de chaque variable et les
valeurs hors diagonale représentent les covariances entre chaque paire de variables.
 Plus les valeurs hors diagonale sont élevées, plus les variables sont corrélées entre elles.
 La matrice de covariance est un élément clé de l'ACP car elle est utilisée pour déterminer
les vecteurs et valeurs propres de la matrice.
 Les vecteurs propres de la matrice de covariance sont appelés vecteurs propres ou axes
factoriels de l'ACP, tandis que les valeurs propres sont utilisées pour mesurer
l'importance de chaque composante principale.
Valeurs & Vecteurs propres
 Les valeurs propres et les vecteurs propres sont des éléments clés de l'Analyse en
Composantes Principales (ACP).
 Les vecteurs propres sont des vecteurs unitaires qui indiquent les directions des
composantes principales, tandis que les valeurs propres représentent l'importance de chaque
composante principale.
 Les vecteurs propres sont calculés à partir de la matrice de covariance des données. Ils sont
définis comme des vecteurs qui, lorsqu'ils sont multipliés par la matrice de covariance,
produisent une nouvelle matrice qui est une version redimensionnée de la matrice originale.
 Autrement dit, les vecteurs propres sont des directions dans l'espace des variables qui
expliquent la variance maximale des données.
 Les valeurs propres sont des nombres qui mesurent l'importance de chaque vecteur propre.
Valeurs & Vecteurs propres
 Elles sont calculées en résolvant l'équation suivante :
Cov(X) * v = λ * v
où :
 Cov(X) : Matrice de covariance des données,
 v : Vecteur propre
 λ : Valeur propre associée.
 Calculez l'équation caractéristique en soustrayant λ (lambda), la valeur propre, de la diagonale principale
de la matrice de covariance et en la mettant égale à zéro.
 L'équation caractéristique est de la forme :
|A – λ.I| = 0
Où :
 A : Matrice de covariance
 I : Matrice identité de même taille que A.
 Résolvez l'équation caractéristique pour trouver les valeurs propres λ. Cela revient à résoudre un
polynôme caractéristique de degré n.
Valeurs & Vecteurs propres
 Pour chaque valeur propre λ, substituez-la dans l'équation :
|A – λ.I| . v = 0
Où :
 v : Vecteur propre correspondant à λ.
 Résolvez cette équation pour trouver les vecteurs propres associés.
 Chaque vecteur propre a une valeur propre correspondante qui indique la quantité de variance
expliquée par cette direction.
 Les valeurs propres sont ordonnées en ordre décroissant pour identifier les composantes principales les
plus importantes.
 La première composante principale est celle qui explique la plus grande part de la variance des données,
la deuxième composante principale est celle qui explique la deuxième plus grande part de la variance, et
ainsi de suite.
 Les vecteurs propres et les valeurs propres sont utilisés pour construire les composantes principales de
l'ACP.
Réalisation
de
l'ACP
Standardisation des données
 L'étape de standardisation des données est cruciale dans la réalisation de l'Analyse
en Composantes Principales (ACP), car elle permet de mettre toutes les variables sur
une même échelle de mesure.
 Cela permet d'éviter que certaines variables ayant des valeurs numériques plus
élevées dominent les autres variables dans l'analyse.
 La standardisation des données implique de centrer les variables autour de leur
moyenne, puis de les diviser par leur écart-type.
 Cela a pour effet de donner à chaque variable une moyenne égale à zéro et un
écart-type égal à un.
Standardisation des données
 La formule mathématique de la standardisation est la suivante :
x − mean(xi)
zij = ij
std(xi)
où :
 zij : Valeur standardisée de la variable i pour l'observation j,
 xij : Valeur de la variable i pour l'observation j,
 mean(xi) : Moyenne de la variable i,
 std(xi) : écart-type de la variable i.
 Il est important de noter que la standardisation n'affecte pas la structure de covariance entre les
variables, elle ne fait que les mettre sur une même échelle.
 La structure de covariance est ensuite utilisée dans l'ACP pour calculer les valeurs propres et les
vecteurs propres.
 En résumé, la standardisation des données est une étape importante de l'ACP qui permet de
mettre toutes les variables sur une même échelle de mesure, évitant ainsi que certaines variables
aient un impact disproportionné sur les résultats de l'analyse.
Calcul des vecteurs propres et valeurs propres
 Le calcul des vecteurs propres et valeurs propres est une étape clé de
l'Analyse en Composantes Principales (ACP).
 Ces deux quantités sont utilisées pour déterminer les axes principaux des
données et leur importance relative.
 Les vecteurs propres représentent les directions des axes principaux des
données, tandis que les valeurs propres représentent l'importance relative de
ces axes en termes de variance expliquée.
 Les vecteurs propres et les valeurs propres sont calculés à partir de la matrice
de covariance des données standardisées.
Calcul des vecteurs propres et valeurs propres
 Le calcul des vecteurs propres et valeurs propres se déroule en plusieurs étapes :
o Standardisation des données : les données sont centrées et réduites, c'est-à-dire que
chaque variable est centrée autour de sa moyenne et divisée par son écart-type.
o Calcul de la matrice de covariance : à partir des données standardisées, on calcule la
matrice de covariance, qui mesure la relation linéaire entre les variables. La matrice de
covariance est une matrice carrée dont la taille est égale au nombre de variables.
o Calcul des valeurs propres : les valeurs propres représentent l'importance relative des
axes principaux des données. Elles sont calculées en diagonalisant la matrice de
covariance. La diagonalisation de la matrice de covariance produit une matrice diagonale
contenant les valeurs propres. Les valeurs propres correspondent à la variance expliquée
par chaque axe factoriel.
Calcul des vecteurs propres et valeurs propres
o Calcul des vecteurs propres : les vecteurs propres représentent les directions des axes principaux
des données. Ils sont calculés en résolvant l'équation matricielle Ax = λx, où A est la matrice de
covariance, λ est une valeur propre, et x est un vecteur propre correspondant à λ. Les vecteurs
propres sont des combinaisons linéaires des variables initiales et représentent les axes factoriels
de l'ACP.
o Classement des axes principaux : les axes principaux sont classés en fonction de leur importance
relative, qui est mesurée par les valeurs propres. Les axes avec les valeurs propres les plus élevées
expliquent la plus grande partie de la variance dans les données.
 En résumé, le calcul des vecteurs propres et valeurs propres est une étape clé de l'ACP qui permet de
déterminer les axes principaux des données et leur importance relative.
 Ces quantités sont calculées à partir de la matrice de covariance des données standardisées, et sont
utilisées pour interpréter les résultats de l'analyse en termes de variance expliquée et de structure des
données.
Choix du nombre de composantes principales
 Le choix du nombre de composantes principales à retenir est une étape importante de l'Analyse
en Composantes Principales (ACP).
 Il est crucial de trouver le nombre de composantes principales qui capture la plupart de la
variance des données tout en évitant le sur-apprentissage (overfitting).
 Il existe plusieurs méthodes pour déterminer le nombre de composantes principales à retenir.
Nous allons en présenter les deux principales :
o La méthode du coude : Cette méthode consiste à tracer un
graphique représentant les valeurs propres en ordonnée et le
nombre de composantes principales en abscisse. Ensuite, on
observe le point à partir duquel les valeurs propres diminuent
significativement. Ce point est appelé le "coude" et représente
le nombre optimal de composantes principales à retenir. En
effet, les composantes principales qui suivent le coude
contribuent moins à la variance totale des données.
Choix du nombre de composantes principales
o La méthode de la variance expliquée cumulative :
Cette méthode consiste à tracer un graphique
représentant la variance expliquée cumulative en
ordonnée et le nombre de composantes principales
en abscisse. Ensuite, on observe le point à partir
duquel la courbe atteint un plateau. Ce point est le
nombre optimal de composantes principales à
retenir, car il représente le nombre de composantes
principales qui capturent la plupart de la variance
des données.

 Il est important de noter que le choix du nombre de composantes

principales dépend du but de l'analyse et des caractéristiques
spécifiques des données.
Choix du nombre de composantes principales
 En général, on trie les valeurs propres de la matrice de variance-covariance en ordre décroissant et
on sélectionne les premiers axes qui expliquent une proportion significative de la variance totale des
données, généralement 70 à 90%.
 Ces axes sont considérés comme les axes principaux ou les composantes principales de l'ACP.
 Les autres axes sont souvent négligés car ils expliquent une faible proportion de la variance totale.
 Dans certains cas, il est préférable de conserver un nombre plus élevé de composantes principales
pour capter plus de variabilité dans les données.
 En résumé, le choix du nombre de composantes principales est une étape importante de l'ACP qui
nécessite une certaine réflexion et une compréhension des caractéristiques des données et des
objectifs de l'analyse.
 Les méthodes du coude et de la variance expliquée cumulative sont des approches courantes pour
déterminer le nombre optimal de composantes principales à retenir.
Choix du nombre de composantes principales

 Enfin, pour chaque individu, on calcule les scores de chaque composante principale
en multipliant les valeurs des variables par les vecteurs propres correspondant à
chaque axe factoriel.
 Les scores des individus peuvent ensuite être utilisés pour effectuer des analyses
supplémentaires et pour interpréter les résultats de l'ACP.
Réduction de la dimensionnalité
 La réduction de la dimensionnalité est l'un des principaux objectifs de l'Analyse en Composantes
Principales (ACP).
 En effet, l'ACP permet de représenter les données en un nombre réduit de variables appelées
"composantes principales" tout en préservant la plupart de l'information contenue dans les
données initiales.
 La réduction de la dimensionnalité présente plusieurs avantages, tels que la simplification de
l'analyse, la visualisation des données dans un espace de faible dimension, la détection des
variables les plus importantes et la réduction du sur-apprentissage.
 En pratique, la réduction de la dimensionnalité se fait en sélectionnant un nombre limité de
composantes principales qui capturent la plupart de la variance des données.
 Ce nombre est déterminé en utilisant des critères tels que la méthode du coude ou la variance
expliquée cumulative, comme expliqué précédemment.
Réduction de la dimensionnalité
 Une fois que le nombre optimal de composantes principales est déterminé, les données peuvent être
projetées sur ces composantes principales pour obtenir une représentation en dimension réduite.
 Les nouvelles variables obtenues correspondent aux coordonnées des observations dans l'espace des
composantes principales. Ces nouvelles variables peuvent être utilisées pour effectuer d'autres
analyses, telles que la classification ou la régression.
 Il est important de noter que la réduction de la dimensionnalité peut entraîner une perte
d'information. Il est donc important de vérifier que la réduction de la dimensionnalité ne nuit pas à la
qualité de l'analyse.
 En outre, la réduction de la dimensionnalité ne doit pas être considérée comme une solution
universelle à tous les problèmes d'analyse de données.
 Elle doit être utilisée de manière réfléchie en fonction des caractéristiques spécifiques des données et
des objectifs de l'analyse.
Algorithme ACP
1. Pour chaque variable, centrer les données (soustraire la moyenne de chaque observation),
2. Pour chaque variable, diviser les données centrées par leur écart-type (afin d'avoir des variables avec
une variance égale à 1),
3. Calculer la matrice de covariance des variables centrées et réduites,
4. Calculer les valeurs propres et vecteurs propres de la matrice de covariance,
5. Ordonner les vecteurs propres selon les valeurs propres décroissantes,
6. Sélectionner les vecteurs propres correspondant aux valeurs propres les plus élevées jusqu'à atteindre
un pourcentage de variance expliquée désiré,
7. Calculer les scores de chaque observation pour chaque axe factoriel sélectionné en multipliant les
valeurs centrées et réduites des variables par le vecteur propre correspondant, et en sommant les
résultats pour chaque observation,
8. Interpréter les résultats en analysant les charges des variables et les scores des observations sur
chaque axe factoriel sélectionné.
Exemple
Étape 1 : Standardisation
 Considérons l’exemple suivant : Supposons les caractéristiques des différentes dimensions comme F1,
F2, F3 et F4.
 Le tableau à droite affiche les valeurs standardisées.
Étape 2 : Matrice de covariance
 La formule pour calculer la matrice
de covariance est présentée dans le
tableau ci-contre en haut.
 Puisque vous avez déjà standardisé
les données, vous pouvez
considérer pour chaque
caractéristique :
o Moyenne = 0,
o Écart type = 1.
Étape 3 : Valeurs propres & Vecteurs propres
 Un vecteur propre : est un vecteur spécial non nul associé à la matrice de covariance des variables
d'origine. Il représente une direction dans l'espace des variables qui capture une partie significative
de la variance des données.
 La valeur propre correspondante : un nombre associé à un vecteur propre dans le contexte de la
matrice de covariance des variables d'origine. Les valeurs propres fournissent des informations sur
la variance expliquée par chaque composante principale.
 Soit A une matrice carrée (dans notre cas la matrice de covariance), si ν un vecteur et λ un scalaire
vérifiant :
A.ν=λ.ν
Alors : λ est appelée valeur propre associée au vecteur propre ν de A.
 En réorganisant l'équation ci-dessus :
A.ν – λ.ν = 0
(A – λ.I) . ν = 0
Étape 3 : Valeurs propres & Vecteurs propres
 Puisque nous savons déjà que ν est un vecteur non nul, cette équation sera être égale à zéro, si :
det(A – λ.I) = 0

 En résolvant l’équation ci-dessus, on trouve les valeurs des valeurs propres suivantes :
o λ1 = 2.51579324
o λ2 = 1.0652885
o λ3 = 0.39388704
o λ4 = 0.02503121
Étape 3 : Valeurs propres & Vecteurs propres
 En résolvant l’équation :
(A – λ.I) . ν = 0
Pour les différentes valeurs propres λi :

0.161960
−0.524048
 Pour λ = 2.51579324, on trouve : e1 = −0.585896
−0.596547
Étape 3 : Valeurs propres & Vecteurs propres

 En suivant la même approche, nous pouvons calculer les vecteurs propres

pour les autres valeurs propres.
 Voici la matrice utilisant les vecteurs propres :

e1 e2 e3 e4
0.161960 −0.917059 −0.307071 0.196162
−0.524048 0.206922 −0.817319 0.120610
−0.585896 −0.320539 0.188250 −0.720099
−0.596547 −0.115935 0.449733 0.654547
Étape 4 : K valeurs propres
 Nous allons trier les valeurs propres et leurs vecteurs propres correspondants,
mais dans notre cas les valeurs propres sont déjà triées, il n'est donc pas
nécessaire de les trier à nouveau.
 Choisissez k valeurs propres et formez une matrice de vecteurs propres.
 Si nous choisissons les 2 meilleurs vecteurs propres, la matrice ressemblera à
ceci : e1 e2
0.161960 −0.917059
−0.524048 0.206922
−0.585896 −0.320539
−0.596547 −0.115935
Étape 5 : Transformation de matrice originale

f1 f2 f3 f4 e1 e2 nf1 nf2
−1.000000 −0.632456 0.000000 0.260623 0.161960 −0.917059 0.014003 0.755975
0.333333 1.264911 −1.732051 −1.563740 −0.524048 0.206922 −2.556534 −0.780432
−1.000000 0.632456 −0.577350 −1.173749 * −0.585896 −0.320539 = −0.051480 1.253135
0.333333 0.000000 −0.577350 −1.042493 −0.596547 −0.115935 1.0141150 0.000239
1.333333 −1.264911 −0.577350 −0.608121 1.579861 −1.228917
(5,4) (4,2) (5,2)
Conclusion
Avantages
 Réduction de la dimensionnalité : L'ACP permet de réduire la dimensionnalité d'un
ensemble de données en résumant l'information contenue dans un grand nombre de
variables en un nombre réduit de composantes principales. Cela facilite la visualisation,
l'analyse et l'interprétation des données.
 Identification des patterns et des structures cachées : L'ACP permet de mettre en évidence
les relations et les structures cachées entre les variables. Elle peut révéler des patterns, des
tendances ou des groupements qui ne sont pas évidents à partir des données brutes.
 Interprétation des résultats : L'ACP fournit des composantes principales qui sont des
combinaisons linéaires des variables d'origine. Ces composantes peuvent être interprétées et
utilisées pour comprendre les relations entre les variables, identifier les variables importantes
et expliquer la variance des données.
Avantages
 Visualisation graphique : L'ACP permet de représenter graphiquement les
données dans un espace de dimensions réduit. Cela facilite la visualisation des
observations, la détection de clusters ou de tendances, et la compréhension des
relations entre les variables.
 Détection d'observations atypiques : L'ACP peut aider à détecter les observations
atypiques ou influentes dans un ensemble de données. Les observations qui
s'éloignent des autres dans l'espace des composantes principales peuvent être
identifiées comme des valeurs aberrantes potentielles.
Inconvénients
 Perte d'information : Lors de la réduction de la dimensionnalité, une partie de
l'information contenue dans les variables d'origine peut être perdue. Les
composantes principales sélectionnées ne capturent pas nécessairement toute la
variabilité des données, en particulier si les premières composantes principales
expliquent une proportion relativement faible de la variance totale.
 Assomption de linéarité : L'ACP suppose que les relations entre les variables sont
linéaires. Si les relations sont non linéaires, l'ACP peut ne pas être appropriée ou
peut produire des résultats moins fiables.
Inconvénients
 Sensibilité aux échelles : L'ACP est sensible aux échelles des variables. Si les variables ont
des échelles très différentes, cela peut entraîner une dominance des variables à plus
grande échelle dans la détermination des composantes principales.
 Impact des données manquantes : La présence de données manquantes peut poser des
problèmes lors de l'application de l'ACP. Les méthodes de gestion des données
manquantes doivent être utilisées pour traiter ce problème de manière appropriée.
 Subjectivité de l'interprétation : L'interprétation des composantes principales et des
résultats de l'ACP est souvent subjective. Les décisions sur la sélection du nombre de
composantes principales, l'interprétation des charges factorielles et la signification des
composantes dépendent de l'expertise de l'analyste et des connaissances préalables sur
les données.
Perspectives
 Pour surmonter certains des inconvénients de l'Analyse en Composantes Principales (ACP),
plusieurs variantes et extensions de l'ACP ont été développées. Voici quelques-unes des
variantes les plus couramment utilisées :
o ACP non linéaire (Kernel PCA) : Cette variante de l'ACP permet de traiter des données non
linéaires en utilisant des fonctions noyau pour effectuer une transformation non linéaire
des variables d'origine dans un espace de dimensions supérieures. Cela permet de capturer
des structures non linéaires dans les données et d'obtenir une représentation des
composantes principales non linéaires.
o ACP robuste : L'ACP robuste est une extension de l'ACP qui est moins sensible aux données
aberrantes ou aux valeurs extrêmes. Elle utilise des méthodes robustes pour estimer les
composantes principales, réduisant ainsi l'impact des observations atypiques sur les
résultats de l'ACP.
Perspectives
o ACP partielle : L'ACP partielle est utilisée lorsque l'on souhaite analyser la relation
entre un sous-ensemble de variables d'intérêt et les autres variables dans un
ensemble de données. Elle permet de calculer les composantes principales basées
uniquement sur les variables d'intérêt, en tenant compte de leur relation avec les
autres variables. Cela permet d'obtenir une interprétation plus ciblée des
composantes principales.
o ACP multi-blocs : L'ACP multi-blocs est utilisée lorsque les données sont divisées en
plusieurs blocs ou groupes de variables. Elle permet d'analyser la structure et les
relations entre les blocs de variables, en identifiant les composantes principales qui
expliquent la variance dans chaque bloc et la variance partagée entre les blocs.
Perspectives
o ACP mixte : L'ACP mixte est utilisée lorsque les données contiennent à la fois des
variables quantitatives et des variables qualitatives (catégorielles). Elle combine des
techniques d'ACP pour les variables quantitatives et des méthodes spécifiques pour
les variables qualitatives, permettant ainsi une analyse plus complète des données
mixtes.
 Ces variantes de l'ACP offrent des approches alternatives pour surmonter certains des
inconvénients de l'ACP traditionnelle.
 Cependant, il convient de noter que chaque variante a ses propres limites et exigences
spécifiques.
 Le choix de la méthode dépendra du type de données, des objectifs de l'analyse et des
contraintes de l'étude.

Vous aimerez peut-être aussi

Analyse en Composantes Principales en Datamining
Pas encore d'évaluation
Analyse en Composantes Principales en Datamining
8 pages
Acp 2
Pas encore d'évaluation
Acp 2
5 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
9 pages
Analyses Acp, Afc, Hiérarchique: Exposé Sur
Pas encore d'évaluation
Analyses Acp, Afc, Hiérarchique: Exposé Sur
26 pages
Cours Analyse de Données - Chapitre 2-3
Pas encore d'évaluation
Cours Analyse de Données - Chapitre 2-3
42 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
2 pages
CHAPITRE3
Pas encore d'évaluation
CHAPITRE3
28 pages
Expose Analyse Composante Principale Application
100% (1)
Expose Analyse Composante Principale Application
14 pages
Chapitre 3: Analyse en Composantes Principales (ACP) : Enseignante: Raghda Jouirou
Pas encore d'évaluation
Chapitre 3: Analyse en Composantes Principales (ACP) : Enseignante: Raghda Jouirou
33 pages
Acp
100% (1)
Acp
20 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
14 pages
Analyse de Données par ACP
Pas encore d'évaluation
Analyse de Données par ACP
3 pages
L'analyse Des Données
Pas encore d'évaluation
L'analyse Des Données
55 pages
Analyse des Données Multivariées
Pas encore d'évaluation
Analyse des Données Multivariées
20 pages
Méthode ACP : Réduction de dimension
Pas encore d'évaluation
Méthode ACP : Réduction de dimension
12 pages
Cours
Pas encore d'évaluation
Cours
26 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
44 pages
ACP Cours Repris
Pas encore d'évaluation
ACP Cours Repris
3 pages
Analyse Factorielle pour la Santé
Pas encore d'évaluation
Analyse Factorielle pour la Santé
4 pages
Interprétation de l'Analyse en Composantes Principales
Pas encore d'évaluation
Interprétation de l'Analyse en Composantes Principales
7 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
13 pages
Analyse Des Données - ACP
Pas encore d'évaluation
Analyse Des Données - ACP
108 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
11 pages
Add Intro Et Acp
Pas encore d'évaluation
Add Intro Et Acp
39 pages
Cours Analyse Des Données - Fi22300090
Pas encore d'évaluation
Cours Analyse Des Données - Fi22300090
92 pages
Analyse des Données : Méthodes et Applications
0% (1)
Analyse des Données : Méthodes et Applications
50 pages
Cours SGMP
100% (1)
Cours SGMP
14 pages
Analyseencomposantesprincipalesfinale 170310225140
Pas encore d'évaluation
Analyseencomposantesprincipalesfinale 170310225140
29 pages
Cours Analyse Des Données Marketing
Pas encore d'évaluation
Cours Analyse Des Données Marketing
92 pages
12186ds-Cours+Partie2+Analyse+de+données - (1) - 241016 - 155244
Pas encore d'évaluation
12186ds-Cours+Partie2+Analyse+de+données - (1) - 241016 - 155244
30 pages
Hassan Ait Idir
Pas encore d'évaluation
Hassan Ait Idir
52 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
37 pages
ACP Cours
Pas encore d'évaluation
ACP Cours
52 pages
Analyse de Données avec SPSS
Pas encore d'évaluation
Analyse de Données avec SPSS
62 pages
Machine Learning - 2 Analyse en Composantes Principale
Pas encore d'évaluation
Machine Learning - 2 Analyse en Composantes Principale
37 pages
Cours D'add 2024
Pas encore d'évaluation
Cours D'add 2024
23 pages
2 Analyse en Composantes Principales - Learn Machine Learning
Pas encore d'évaluation
2 Analyse en Composantes Principales - Learn Machine Learning
39 pages
Analyse en Composantes Principales - Wikipédia
Pas encore d'évaluation
Analyse en Composantes Principales - Wikipédia
69 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
13 pages
Cours Acp Master
Pas encore d'évaluation
Cours Acp Master
99 pages
Support de Cours Module ADD Univ Annaba (Tchi Drive)
Pas encore d'évaluation
Support de Cours Module ADD Univ Annaba (Tchi Drive)
104 pages
Tout Savoir Sur LACP
Pas encore d'évaluation
Tout Savoir Sur LACP
8 pages
Chapitre 1 Analyse en Composantes Principales 2024-2025
Pas encore d'évaluation
Chapitre 1 Analyse en Composantes Principales 2024-2025
7 pages
Résumé Acp
100% (1)
Résumé Acp
35 pages
Analysse Des Données Ecole D'été AB UCAD 2022
Pas encore d'évaluation
Analysse Des Données Ecole D'été AB UCAD 2022
52 pages
Guide ACP pour la Réduction de Données
Pas encore d'évaluation
Guide ACP pour la Réduction de Données
12 pages
Analyse Geoenvir
Pas encore d'évaluation
Analyse Geoenvir
7 pages
Notations Et Application
Pas encore d'évaluation
Notations Et Application
3 pages
Acp Pour Étudiants
Pas encore d'évaluation
Acp Pour Étudiants
21 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
6 pages
Analyse en Composantes Principales (ACP) : 29 Janvier 2024
Pas encore d'évaluation
Analyse en Composantes Principales (ACP) : 29 Janvier 2024
23 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
20 pages
Chap 4 ACP
Pas encore d'évaluation
Chap 4 ACP
4 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
39 pages
ADD Cours2
Pas encore d'évaluation
ADD Cours2
27 pages
Analyse Factorielle et ACP : Guide Complet
Pas encore d'évaluation
Analyse Factorielle et ACP : Guide Complet
10 pages
Chapitre 1 - Concepts de La Programmation Objet
Pas encore d'évaluation
Chapitre 1 - Concepts de La Programmation Objet
75 pages
État de L'art
Pas encore d'évaluation
État de L'art
6 pages
État Avancement 2
Pas encore d'évaluation
État Avancement 2
1 page
Chapitre 3 - Méthodes Interpolation Déterministes - SMI - S6 - 2022 - 2023 - VF
Pas encore d'évaluation
Chapitre 3 - Méthodes Interpolation Déterministes - SMI - S6 - 2022 - 2023 - VF
63 pages
Chapitre 1 - Rappels Statistiques - SMI - S6 - 2022 - 2023 Partie - 1
Pas encore d'évaluation
Chapitre 1 - Rappels Statistiques - SMI - S6 - 2022 - 2023 Partie - 1
75 pages
La Pensée de Xi Jinping
Pas encore d'évaluation
La Pensée de Xi Jinping
10 pages
Recettes de Cuisine Moléculaire
Pas encore d'évaluation
Recettes de Cuisine Moléculaire
22 pages
Attaquer Un Pressing Tout Terrain G LELARGE, CTF OISE BASKETBALL
Pas encore d'évaluation
Attaquer Un Pressing Tout Terrain G LELARGE, CTF OISE BASKETBALL
12 pages
Exercices de vocabulaire pour CM1
Pas encore d'évaluation
Exercices de vocabulaire pour CM1
1 page
La Corrosion
Pas encore d'évaluation
La Corrosion
12 pages
Calendrier Des 12 Officiers-2025-2026 Astrologie Chine
Pas encore d'évaluation
Calendrier Des 12 Officiers-2025-2026 Astrologie Chine
92 pages
Essai d'affaissement du béton frais
Pas encore d'évaluation
Essai d'affaissement du béton frais
4 pages
Présentation Comité D'entreprise Et Comité de Sécurité Et D'hygiène
Pas encore d'évaluation
Présentation Comité D'entreprise Et Comité de Sécurité Et D'hygiène
16 pages
2s - Correction Exo 7 (Calcul Dans Ir)
Pas encore d'évaluation
2s - Correction Exo 7 (Calcul Dans Ir)
5 pages
La Dictée
Pas encore d'évaluation
La Dictée
36 pages
Petitot Lautman
Pas encore d'évaluation
Petitot Lautman
50 pages
Projet de Creation
Pas encore d'évaluation
Projet de Creation
42 pages
Math (Cours + TD) - DR Boufala
Pas encore d'évaluation
Math (Cours + TD) - DR Boufala
1 page
Showdeclfileres PDF
Pas encore d'évaluation
Showdeclfileres PDF
34 pages
GeKaMac FR 2020 5f4e0dca7eb09
Pas encore d'évaluation
GeKaMac FR 2020 5f4e0dca7eb09
70 pages
Exposé Asthme
Pas encore d'évaluation
Exposé Asthme
2 pages
Examen Comptabilite Societes L2
Pas encore d'évaluation
Examen Comptabilite Societes L2
3 pages
Catalogue Bois 1
Pas encore d'évaluation
Catalogue Bois 1
28 pages
CA Unisec (FR) N 1vfm200003
100% (1)
CA Unisec (FR) N 1vfm200003
124 pages
Fiche de Poste Assistant de Direction
100% (1)
Fiche de Poste Assistant de Direction
1 page
Plan D
Pas encore d'évaluation
Plan D
8 pages
RC - RL - RLC - 2 Bac Biof SSK MR Sabour
Pas encore d'évaluation
RC - RL - RLC - 2 Bac Biof SSK MR Sabour
7 pages
Le Bourgmestre de Stilmonde
Pas encore d'évaluation
Le Bourgmestre de Stilmonde
5 pages
Projet 4 Seq1 Et 2 Pour Les 5 AP-2019-2020 Ilyess Gladiator
Pas encore d'évaluation
Projet 4 Seq1 Et 2 Pour Les 5 AP-2019-2020 Ilyess Gladiator
55 pages
Rapport Diagnostic ATL Petion-Ville Ver-11092013
Pas encore d'évaluation
Rapport Diagnostic ATL Petion-Ville Ver-11092013
50 pages
Analyse PESTEL et RSE de FAMISERV
100% (2)
Analyse PESTEL et RSE de FAMISERV
6 pages
Organigramme STL 2023
Pas encore d'évaluation
Organigramme STL 2023
1 page
CV 33
Pas encore d'évaluation
CV 33
9 pages
Rapport de Stage de Diarrassouba Zie Fassoury Adams FFFF
Pas encore d'évaluation
Rapport de Stage de Diarrassouba Zie Fassoury Adams FFFF
30 pages
Ressources Zoogénétiques Pour L'Alimentation Et L'Agriculture
Pas encore d'évaluation
Ressources Zoogénétiques Pour L'Alimentation Et L'Agriculture
577 pages