Cours ACP Chapitre 5 Final
Cours ACP Chapitre 5 Final
Statistiques et
Analyse de Données
Chapitre V :
L’Analyse en Composantes Principales
Prof. BARAKA Achraf Chakir
[Link]@[Link]
1 2
Problématique
• Tirer des conclusions à partir d’un tableau de cinq lignes
individus et deux colonnes variables est un exercice simple.
• Mais lorsque le tableau a 1000 lignes et 50 colonnes, les
choses deviennent plus complexes.
Introduction • Les méthodes d’analyses factorielles (tels que ACP)
permettent une représentation plus accessible de la
structure des données en ne retenant que l’essentiel de
l’information.
3 4
Généralités Définition
• L’ACP ou l’Analyse Factorielle en Composante Principale fait • C’est une technique exploratoire pour résumer les relations entre
partie des analyses descriptives multivariées. les variables à l’aide d’un jeu des facteurs aussi réduit que
possible.
• Historiquement, il s’agit de l’un des plus anciennes • Outre l’aspect réduction des données, ces facteurs sont sensés
méthodes d’analyse de données. Mais les applications discriminer les données de manière à être facilement
informatiques ont considérablement modifié les conditions interprétable.
et modalités d’application, en rendant notamment possible • L’ACP est une technique statistique dont le but est de représenter
le traitement d’un très grand nombre de données. C’est enfin les relations qui lient les variables à travers des valeurs prises par
la méthode la plus connue et la plus utilisée. les individus.
• L’ACP est un cas particulier de l’analyse factorielle (AF). • Donc l’aspect de l’étude est de résumer l’ensemble des variables
en un petit nombre de variables synthétiques appelées facteurs.
5 6
1
10/01/2025
Définition Définition
• Mathématiquement, on obtiendrait le
• Tout cela est réalisé par la projection de notre dataset
meilleur ajustement du nuage par des sous-
initiale dans un espace réduit.
espaces vectoriels.
• La projection, c’est la fonction qui permet de représenter des
• Algébriquement, il s’agit de chercher les
points dans un espace plus petit impliquant une perte
valeurs propres maximales de la matrice des
d’information.
données et par conséquent ses vecteurs propres
• Pour minimiser la perte : associes qui représenteront ces sous-espaces
– Maximiser la variance de nos projections. vectoriels (axes factoriels ou principales).
– Minimiser la distance entre nos données et nos projections. • Géométriquement, on représente le tableau
comme un nuage de points.
8 10
Définition
11 13
14 15
2
10/01/2025
16 17
18 19
Objectifs de l’analyse
Variables de l’analyse
Procédure Formuler le problème
Echelle
Taille de
l’échantillon
Interpréterles facteurs
3
10/01/2025
22 23
TEJ TCJ EV NLH NMH NMEURT DMIL NDETENUS R et D NBREVET PAUVRET TE Composante Total % de la variance % cumulés
1 4,109 34,246 34,246
TEJ 1 -0,761 -0,17 -0,055 -0,146 0,787 -0,411 0,125 0,156 0,61 0,192 0,88
TCJ -0,761 1 -0,183 0,228 0,009 -0,539 0,541 -0,041 0,289 -0,136 0,277 -0,84 2 2,369 19,745 53,991
EV -0,17 -0,183 1 0,289 0,141 -0,001 -0,415 0,562 0 -0,192 -0,3 0,122
3 2,023 16,858 70,849
NLH -0,055 0,228 0,289 1 0,148 0,278 -0,292 0,087 0,578 0,533 -0,184 -0,075
4 1,610 13,417 84,265
NMH -0,146 0,009 0,141 0,148 1 0,177 -0,117 -0,266 -0,358 0,065 -0,25 -0,158
Corrélation
RetD 0,156 0,289 0 0,578 -0,358 0,187 -0,003 0,547 1 0,574 0,285 -0,021
8 ,194 1,619 99,193
NBREVET 0,61 -0,136 -0,192 0,533 0,065 0,8 -0,194 0,163 0,574 1 0,11 0,476 9 ,064 ,532 99,725
PAUVRET 0,192 0,277 -0,3 -0,184 -0,25 -0,001 0,329 0,201 0,285 0,11 1 0,065 10 ,033 ,275 100,000
TE 0,88 -0,84 0,122 -0,075 -0,158 0,74 -0,442 0,24 -0,021 0,476 0,065 1 11 1,175E-16 9,791E-16 100,000
24 25
Composante
1 2 3 4
NMEURT 0,902 0,023 -0,041 0,292
4
10/01/2025
Corée Sud
Afrique Sud
4
F2 (24,20 %)
Tunisie
Brésil Iran
0
Algérie
Chili
Turquie Maroc
Jordanie
Pérou Syrie
Malaisie Egypte
-2 Mexique
-4
-6
-8 -6 -4 -2 0 2 4 6 8
F1 (33,20 %)
Figure : La représentation graphique des pays sur le plan Factoriel (F1, F2)
Figure : Représentation graphique des indicateurs dans le plan factoriel (F1, F2)
28 29
Application de l’ACP
Classe 3
• Corée de Sud Objectifs
• Afrique du Sud
Classe 4
30 31
ACP Objectifs
• L’algorithme de l’ACP effectue sur la matrice • L’ACP manipule les individus ainsi que les variables dont ils
individus/variables différentes opérations (centrage- sont abordés différemment :
réduction des données, extraction de valeurs propres et de
vecteurs propres…), en vue de passer du nombre de variables – On examine les variables à travers les corrélations qui les
initial à un petit nombre de variables obtenues par relient positivement ou négativement.
combinaison des premières. – On examine les individus selon leurs ressemblances ou
• Ces nouvelles composantes forment les axes du mapping. La leurs dissemblances afin de déterminer une typologie.
première composante est celle qui résume le mieux les – On cherche à relier les deux points de vue en
informations contenues dans le tableau. La deuxième
apporte un pourcentage inférieur mais complémentaire caractérisant les classes d’individus par des variables et
d’information, et ainsi de suite. groupe.
32 34
5
10/01/2025
ACP Objectifs
• Les variables sont représentées sur le mapping. • Visualiser des données multidimensionnelles en 2 ou 3
• Les axes du mapping ne correspondent généralement pas à dimensions.
l’une ou l’autre des variables mais à un regroupement • Décorréler les variables : l’ACP génère de nouvelles
optimal de plusieurs variables (ex : revenu et niveau variables non corrélées.
d’études peuvent participer ensemble à la formation d’un
axe dans la mesure où elles peuvent être fortement • Débruiter les données.
corrélées).
• Effectuer une réduction de dimension des données.
• Le tableau de départ de l’ACP comporte les individus en
ligne et les variables en colonne, avec, dans chaque case, la
réponse numérique de l’individu à la question
correspondante.
35 36
Méthode Factorielle
Recherche
Conditions et Procédure
Facteurs
qui remplacent les variables initiales
Réduit
Nombre données
en déformant le moins
possible la réalité 38
Objectifs de l’analyse
Variables de l’analyse
Conditions d’utilisation Procédure Formuler le problème
Echelle
Taille de
l’échantillon
• L’analyse en composantes principales est fondée sur le calcul des Lancer l’ACP Saisie des données
moyennes, variances et coefficients de corrélation.
• Les données doivent donc être quantitatives : elles peuvent être Calcul la matrice de corrélations et vérifiersi les données Test KMO
sont-elles factorisables Test Bartlett
discrètes ou ordinales.
• Les questions qualitatives ordinales, peuvent être recodifiées
Extraire les facteurs et déterminer leur nombre • Variance totale expliquée
pour entrer dans le tableau de l’ACP.
• Cette recodification doit être généralement préparée à l’avance.
• Toutefois, certains logiciels d’analyse permettent de réaliser cette Interpréterles facteurs
recodification en direct, lors du choix des variables à faire entrer
dans l’ACP.
Matrice de composantes et Matrices des
composantes après rotation
Diagramme de composantes dans l’espace
39 après rotation 40
6
10/01/2025
41 42
43 44
45 46
7
10/01/2025
47 48
Procédure Procédure
Etape 2 - Matrice de Covariance Etape 3 – Calcule des vecteurs et valeurs propres
• La seconde étape est de calculer la matrice de covariance. La • Ils permettent de déterminer les composantes principales de
matrice de covariance permet de détecter les variables qui notre dataset.
sont fortement liées ou pas. • Les vecteurs propres forment une base orthonormale de
notre dataset et une des propriétés intéressante, c’est que
• La covariance est calculée sur chaque paire des variables leur direction reste inchangée quelque soit la
contenues dans notre dataset. L’algorithme peut grâce à transformation qu’ils subissent.
cette étape savoir quelle variable réduire sans perdre trop
d’information : • Les vecteurs propres déterminent la direction de notre
nouvel espace et les valeurs propres la quantité
d’information (variance) retenues par les vecteurs propres.
49 50
Procédure
Etape 4 – Trie des valeurs propres et projection
• Pour appliquer notre projection sur notre nouvel espace
réduit, on doit décider quels vecteurs propres garder et lesquelles
on doit mettre de côté.
• Pour cela, on inspecte les différentes valeurs propres associés, on
les trie dans l’ordre décroissant. Les valeurs propres les plus
grandes retiennent le plus d’information. On sélectionne alors
Exemple Illustratif
les k vecteurs propres liées au k valeurs propres les plus grandes.
L’objectif étant de minimiser le nombre de dimensions tout en
essayant de maximiser la variance.
• On peut maintenant transformer notre dataset original à n
dimension dans notre nouvel espace à k dimension.
51 52
8
10/01/2025
53 54
55 56
57 58
9
10/01/2025
59 60
61 62
63 64
10
10/01/2025
65 66
67 68
69 70
11
10/01/2025
71 72
73 74
75 76
12
10/01/2025
Exemple illustratif
• Soit un jeu de données avec les clients d'un
magasin décrit par trois variables en
colonne, leur type (Barbare, Géant, Alien), leur
poids total et la taille de leurs oreilles
Exemple Illustratif 2 • Supposons que nous voulons explorer les
données ? Quel serait le moyen le plus simple
de le faire ?
77 78
79 80
81 82
13
10/01/2025
83 84
85 86
87 88
14
10/01/2025
• L'axe vertical est la deuxième dimension. • Chaque ligne orange représente une variable.
• Un axe séparé par un angle aigu sont des
variables corrélés positivement.
• Nous voyons par exemple que le poids et la
taille sont positivement liés.
89 90
91 92
93 94
15
10/01/2025
95 96
97 98
Exemple illustratif
• L'ACP nous a permis d'extraire rapidement une quantité
d'informations intéressantes à partir d'un jeu de données
multidimensionnelles grâce à deux graphiques simples.
Informations recueillies :
Poids corrélé positivement à taille. Récapitulation
Poids et taille oreilles corrélés négativement.
Barbares et Aliens plus petits que géants.
« Xugbir » avec des grands pieds.
99 100
16
10/01/2025
101 103
17