Cours 2 - ACP Final
Cours 2 - ACP Final
MASTER
PROFESSEUR : DR CODÉ LO
INTRODUCTION (1/3)
q Conçue pour la première fois par Karl Pearson en 1901, intégrée à la statistique
mathématique par Harold Hotelling en 1933.
q Méthode factorielle la plus ancienne et la plus simple.
INTRODUCTION (2/3)
q L’ACP s’effectue à partir d’un tableau rectangulaire de mesures, dont les colonnes
figurent des variables quantitatives et dont les lignes représentent les individus sur
lesquels ces variables sont mesurées.
q Autrement, elle permet d’obtenir une représentation des individus en fonction de leurs
proximités et une représentation des variables en fonction de leurs corrélations.
INTRODUCTION (3/3)
q Il est possible d’obtenir sur une même carte des individus et des variables.
• La finalité est d’obtenir un résumé le plus pertinent et fidèle des données initiales.
q L’ACP est une méthode linéaire de projection qui résume une somme considérable
d’information (occasionnant une perte d’information).
Largeur Longueur
Numéro Modèle Cylindrée (cm3) Puissance (ch) Vitesse (km/h) Poids (kg)
(mm) (mm)
1 Citroën C2 1.1 Base 1124 61 158 932 1659 3666
2 Caractéristiques de 24 modèles de voiture en 2004
Smart Fortwo Coupé 698 52 135 730 1515 2500
3 Mini 1.6 170 1598 170 218 1215 1690 3625
4 Nissan Micra 1.2 65 1240 65 154 965 1660 3715
5 Renault Clio 3.0 V6 2946 255 245 1400 1810 3812
6 Audi A3 1.9 TDI 1896 105 187 1295 1765 4203
7 Peugeot 307 1.4 HDI 70 1398 70 160 1179 1746 4202
8 Peugeot 407 3.0 V6 BVA 2946 211 229 1640 1811 4676
9 Mercedes Classe C 270 CDI 2685 170 230 1600 1728 4528
10 BMW 530d 2993 218 245 1595 1846 4841
11 Jaguar S-Type 2.7 V6 Bi-Turbo 2720 207 230 1722 1818 4905
12 BMW 745i 4398 333 250 1870 1902 5029
13 Mercedes Classe S 400 CDI 3966 260 250 1915 2092 5038
14 Citroën C3 Pluriel 1.6i 1587 110 185 1177 1700 3934
15 BMW Z4 2.5i 2494 192 235 1260 1781 4091
16 Audi TT 1.8T 180 1781 180 228 1280 1764 4041
17 Aston Martin Vanquish 5935 460 306 1835 1923 4665
18 Bentley Continental GT 5998 560 318 2385 1918 4804
19 Ferrari Enzo 5998 660 350 1365 2650 4700
20 Renault Scenic 1.9 dCi 120 1870 120 188 1430 1805 4259
21 Volkswagen Touran 1.9 TDI 105 1896 105 180 1498 1794 4391
22 Land Rover Defender Td5 2495 122 135 1695 1790 3883
23 Land Rover Discovery Td5 2495 138 157 2175 2190 4705
24 Nissan X-Trail 2.2 dCi 2184 136 180 1520 1765 4455
6 variables observées sur 24 individus (ici des modèles de voiture) Source : Tenenhaus, 1996
ETUDE DESCRIPTIVE DES VARIABLES
Il ressort que toutes les variables sont corrélées positivement. Autrement dit, il
existe un facteur taille, et qu’en première analyse peuvent être ordonnées des
voitures les plus petites aux plus grandes.
MATRICE DES CORRÉLATIONS (3/3)
q Les variables du groupe (Cylindrée, Puissance et Vitesse) sont bien corrélées entre elles :
q C'est un test statistique exprimé en nombre d'écart-types d'une loi normale (comme les
Pvalues dans les autres logiciels statistiques)
q Toutes les corrélations sont significatives au seuil de 5% puisque la valeur lue est
supérieure à 2.
q Les données à analyser se présentent sous la forme d’un tableau individus x Variables.
! 𝐣 la moyenne de la variable Xj
q 𝐱
#
q 𝐬𝐣 ² = ∑$%&#(x%' − x& ' )( la variance de la variable Xj
$
Variables
1 … j … … p
1
.
.
.
Individus
xi i … xij …
.
.
.
n
… !!
X …
Moyenne
PRINCIPE
q L’ACP consiste à mettre en évidence des relations linéaires fortes entre les variables étudiées, c’est à
dire celles qui différencient le plus les individus entre eux.
q Ces composantes principales sont non corrélées entre elles et résument bien les données de départ.
q Plusieurs critères permettent d’obtenir les composantes principales; le critère de l’inertie est le plus
ancien (Pearson, 1901) et présente un avantage :
• L’approche est géométrique, ce qui permet d’avoir une compréhension plus profonde de la méthode et
une interprétation pertinente.
• D’autres critères existent mais dans ce cours, nous nous limitons à l’approche géométrique de Pearson.
NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (1/7)
q Le centre de gravité du nuage N est le point g, dont les coordonnées sont les
moyennes des différentes variables :
q La dispersion du nuage N autour de son centre de gravité g est mesurée à l’aide de l’inertie totale
du nuage N définie par :
𝟏
I (N,g) = ∑𝐧𝐢$𝟏 𝐝²( 𝐱 𝐢 , 𝐠)
𝐧
où d²(𝐱 𝐢 , 𝐠) représente le carré de la distance (euclidienne) du point x" au centre de gravité g, calculée en utilisant la
formule habituelle :
𝐩
d²(𝐱 𝐢 , 𝐠)=∑𝐣$𝟏( 𝐱 𝐢𝐣 − 𝐱% 𝐣 )²
NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (3/7)
'
I (N,g) = ∑()$' d²( x) , g)
(
# )
= $ ∑$%&# ∑'&#( x%' − x% ' )²
) #
= ∑'&# $ ∑$%&#( x%' − x% ' )²
𝐩
I (N,g) = ∑𝐣$𝟏 𝐬𝐣 ²
avec 𝐬𝐣 ² = variance, 𝒔𝒋 = écart type
q I (N,g) = 2 203 799,63 + 23 237,9536 + 3 066,9444 + 143 906,4225 + 46 738,1161 + 324 045,5625
= 2 744 794,63
q L’inertie est due à un choix d’unité; si on mesurait par exemple la cylindrée en litre au lieu de
cm3, le poids de la cylindrée dans le calcul de l’inertie disparaitrait.
Ø Dans la pratique, il est plus préférable d’obtenir une description des données indépendante du choix
des unités.
Ø Pour neutraliser le problème des unités, on remplace les données d’origine par des données
centrées-réduites (on parle alors d’ACP normée) : toutes les variables ont la même influence dans
le calcul des distances entre individus.
Ø A chaque variable Xj , on associe la variable centrée réduite 𝐗 ∗
𝐣 de moyenne 0 et de variance 1.
∗ (𝐱 𝐣 ( 𝐱) 𝐣 )
𝐗𝐣 =
𝐬𝐣
NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (6/7)
q En centrant et réduisant les données initiales, toutes les variables ont la même
influence maintenant dans le calcul des distances entre les individus.
(𝐱 𝐢𝐣 ' 𝐱( 𝐣 )
q Le nouveau tableau étudié est formé alors des quantités : 𝐱 𝐢𝐣∗ =
𝐬𝐣
Variables
1 … j … … p
1
. … …
.
Individus
(𝐱 𝐢𝐣 ' 𝐱( 𝐣 )
x+ ∗ i 𝐱 𝐢𝐣∗ =
𝐬𝐣
.
.
n
Moyenne … 0 …
NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (7/7)
𝐍 ∗ = (𝐱𝟏 ∗ ,…, 𝐱𝐢 ∗ , … , 𝐱𝐧 ∗ )
q Comme 𝐗 ∗
𝐣 est centrée, le centre de gravité du nuage N* nul :
𝐱 𝟏 ∗,…,!
g* = (! 𝐱 𝐣 ∗ ,…,!
𝐱 𝐩 ∗) = 0
q Comme 𝐗 ∗
𝐣 est réduite, son inertie totale est égale au nombre p de variables :
)
I(N*, g) = ∑&'( s& ² donc I(N*, 0) = p
q Inertie totale du nuage des points individus = Inertie totale du nuage des points variables = P
• L’inertie totale est en quelque sorte l’information contenue dans le tableau d’origine
PREMIER AXE PRINCIPAL (1/5)
∗
q Il s’agit de chercher le premier axe principal du nuage de points N*= (𝐱 𝟏 ,…, 𝐱 𝐧 ∗ ).
q On cherche l’axe (premier axe factoriel) sur lequel le nuage N* se déforme le moins possible en
projection (le nuage projeté est d’inertie maximale).
q Autrement, on cherche une droite ∆𝟏 qui passe le mieux possible au milieu du nuage de points N*.
q On mesure la dispersion du nuage N* autour d’une droite ∆ à l’aide de l’inertie I (N*, ∆) du nuage
N* par rapport à la droite ∆ ∶
𝟏 ∗
I (N*, ∆) = ∑𝐧𝐢/𝟏 𝐝²( 𝐱 𝐢 , 𝐲𝐢 )
𝐧
∗
où 𝐲𝐢 est la projection orthogonale du point 𝐱 𝐢 ∗ sur la droite ∆, noté P∆ (x, ).
PREMIER AXE PRINCIPAL (2/5)
Pourcentage
Numéro Valeur propre Pourcentage
cumulé
q λ1 = 4,4113; la variance est maximale sur le premier axe et décroit au fur et à mesure.
q Pourcentage λ1 = (4,4113/6 )*100= 73,52 (% variance expliquée par la première
composante principale = % d’inertie expliqué par le premier axe principal = quantité
d'information recueillie par un axe principal).
q ACP normée, l’inertie totale (la somme des valeurs propres) vaut p=6, avec p le nombre de
variables actives.
PREMIER AXE PRINCIPAL (5/5)
q La première composante principale 𝐘𝟏 est une nouvelle variable définie pour chaque individu i
par la longueur algébrique de la projection du point x% * sur l’axe ∆# .
𝐩 ∗ 𝐩 𝐱𝐢𝐣 - 𝐱/ 𝐣
∑ ∑
𝐘𝟏 𝐢 = 𝐣+𝟏 𝐮𝟏𝐣 𝐱 𝐢𝐣 = 𝐣+𝟏 𝐮𝟏𝐣 ( )
𝐬𝐣
Coordonnées des composantes principales = projections des individus sur les axes
Coordonnées des individus actifs
Distance à
Identificateur Poids relatif Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6
l'origine
Citroen_C2_1.1_Base 4,17 7,10 -2,60 -0,51 -0,18 0,17 -0,21 -0,03
Smart_Fortwo_Coupe 4,17 20,93 -4,15 -1,67 0,27 -0,92 -0,03 0,03
Mini_1.6_170 4,17 2,93 -1,38 -0,82 0,37 -0,05 0,46 -0,05
Nissan_Micra_1.2_65 4,17 6,61 -2,51 -0,40 -0,17 0,12 -0,29 -0,05
Renault_Clio_3.0_V6 4,17 1,16 0,00 -0,92 0,39 -0,27 0,29 0,13
Audi_A3_1.9_TDI 4,17 1,39 -1,12 0,17 -0,17 0,27 -0,07 0,06
Peugeot_307_1.4_HDI_70 4,17 3,43 -1,73 0,30 -0,41 0,36 -0,24 -0,09
Peugeot_407_3.0_V6_BVA 4,17 0,76 0,55 0,52 0,26 0,34 0,00 -0,01
Mercedes_Classe_C_270_CDI 4,17 0,68 0,08 0,48 0,53 0,37 0,12 0,11
BMW_530d 4,17 1,40 0,84 0,46 0,16 0,68 0,05 0,03
Jaguar_S-Type_2.7_V6_Bi-Turbo 4,17 1,68 0,72 0,90 0,21 0,54 0,10 -0,13
BMW__745i 4,17 5,22 2,13 0,61 0,40 0,16 -0,36 -0,09
Mercedes_Classe_S_400_CDI 4,17 5,66 2,17 0,81 -0,48 0,14 0,06 0,26
Citroën_C3_Pluriel_1.6i 4,17 2,72 -1,62 -0,22 0,02 0,18 -0,01 -0,03
BMW_Z4_2.5i 4,17 0,70 -0,40 -0,60 0,20 0,34 0,13 0,14
Audi_TT_1.8T_180 4,17 1,08 -0,75 -0,46 0,13 0,33 0,41 -0,07
Aston_Martin_Vanquish 4,17 11,62 3,16 -0,64 1,01 -0,20 -0,39 0,23
Bentley_Continental_GT 4,17 20,32 4,16 0,06 1,49 -0,83 0,14 -0,23
Ferrari_Enzo 4,17 34,42 4,95 -2,58 -1,81 0,12 -0,07 -0,10
Renault_Scenic_1.9_dCi_120 4,17 0,93 -0,84 0,38 -0,25 0,11 0,08 -0,01
Volkswagen_Touran_1.9_TDI_105 4,17 1,23 -0,80 0,71 -0,24 0,13 0,00 -0,02
Land_Rover_Defender_Td5 4,17 3,24 -1,07 0,75 -0,18 -1,18 -0,31 0,01
Land_Rover_Discovery_Td5 4,17 7,81 0,85 1,92 -1,52 -1,00 0,31 0,03
Nissan_X-Trail_2.2_dCi 4,17 0,96 -0,61 0,72 -0,05 0,12 -0,17 -0,12
PREMIÈRE COMPOSANTE PRINCIPALE (4/8)
𝟏 𝐧 𝟏
Var (𝐘𝟏 ) = ∑ (𝐘 (𝐢) − -𝐘𝟏 )𝟐 = ∑𝐧𝐢$𝟏 𝐘𝟏 𝐢 𝟐
𝐧 𝐢&𝟏 𝟏 𝐧
𝟏
= ∑𝐧𝐢$𝟏 𝐝² 𝐲𝐢 , 𝟎 ²
𝐧
= I({𝐲𝟏 , … , 𝐲𝐧},0) = λ1
q Les corrélations entre les variables initiales X & et la composante principale Y( peuvent être calculées à
l’aide de la formule :
Cor(𝐗 𝐣 , 𝐘𝟏 )= λ1 𝐮𝟏𝐣
𝟏 λ1
∑𝐩𝐣&𝟏 𝐜𝐨𝐫²(𝐗 𝐣 , 𝐘𝟏 )=
𝐩 𝐩
4,4113
q Sur l’exemple, on obtient
.
= 0,7352
PREMIÈRE COMPOSANTE PRINCIPALE (7/8)
Calculer
¡ Cor(Cylindrée, 𝐘𝟏 )
¡ Cor(L𝐨𝐧𝐠𝐮𝐞𝐮𝐫, 𝐘𝟏 )
PREMIÈRE COMPOSANTE PRINCIPALE (8/8)
0 0 0
∑2+/0 d²( x+ ∗, 0) = ∑2+/0 d²( y+ , 0) + ∑2+/0 d²( x+ ∗, y+ )
2 2 2
𝟏
O𝐫 ∑𝐧𝐢/𝟏 𝐝²( 𝐱 𝐢 ∗, 𝟎) = I(N∗,0) = 𝐩 = 𝐈𝐧𝐞𝐫𝐭𝐢𝐞 𝐭𝐨𝐭𝐚𝐥𝐞
𝐧
QUALITÉ GLOBALE DE LA PREMIÈRE COMPOSANTE
(2/3)
q L’inertie totale:
0 0
I(N*,0)= ∑2+/0 d²( y+ , 0) + ∑2+/0 d²( x+ ∗, y+ ) = p se decompose donc en deux parties ∶
2 2
• Le deuxième terme ∑$%&# d²( x% ∗, y% ) = I(N*, ∆#) représente l’inertie résiduelle du nuage N* autour
de ∆#.
q Sur l’exemple des voitures, on obtient :
Inertie totale = p = 6
Inertie expliquée par ∆𝟏 : λ1 = 4,4113
Inertie résiduelle : p- λ1 =1,344
QUALITÉ GLOBALE DE LA PREMIÈRE COMPOSANTE
(3/3)
q On mesure la qualité globale de la première composante principale par la part
λ1
d'inertie expliquée 3
.
4,4113
q Sur l’exemple, la part d’inertie expliquée par ∆0 vaut =0,7352.
5
• On peut dire que 73,5% de l’inertie totale est expliquée par l’allongement du nuage le long
du premier axe principal.
q Conclusion
Le Nissan Micra est très bien représenté sur le premier axe ∆4
contrairement à la Mercedes Classe C270 qui n’est pas bien
représentée.
DEUXIÈME AXE PRINCIPAL ET DEUXIÈME
COMPOSANTE PRINCIPALE
q On recherche le deuxième axe principal ∆/ orthogonal à ∆( et passant le mieux possible au milieu du
nuage (le nuage se déforme le moins en projection après le premier axe : ∆/ restitue la plus
importante part de l’inertie après ∆( ).
q Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u2, vecteur
propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre λ2.
q La deuxième composante principale Y2 est définie par projection des points sur le deuxième axe
principal.
q La deuxième composante principale Y2 est centrée, de variance λ2, et non corrélée à la première
composante principale Y1.
λ1
q Part de variance expliquée par la première composante principale =
)
λ2
q Part de variance expliquée par la deuxième composante principale =
)
λ1 + λ2
q Part de variance expliquée par les deux premières composantes principales =
)
q Et ainsi de suite pour les autres dimensions : on réitére le processus jusqu’à restituer l’intégralité de
l’inertie du nuage.
LA CARTE DES INDIVIDUS (1/2)
q Les projections des points x\ ∗ sur le plan principal (∆4 ,∆] ) ont
pour coordonnées sur les axes principaux ∆4 et ∆], les valeurs
Y4 i et Y] i .
14,2%
Familiales
Grosses
Petites
73,5%
Sportives
PREMIER PLAN FACTORIEL (2/2)
• le long du premier axe en fonction de leur gamme des plus petites (Smart Fortwo Coupé,
Nissan Micra 1.2 , Citroën C3) aux plus grosses (Bentley Continental, BM 745).
q Le cercle de corrélation représente la projection des variables sur le plan des composantes
principales (cercle de rayon 1).
q En ACP normée les corrélations avec les composantes principales (facteurs) coïncident avec
les coordonnées des variables.
q Aussi, les Cos² des variables représentent le carré des coordonnées des variables.
Approximativement :
Deux variables proches sont corrélées
positivement.
Deux variables opposées, par rapport au
centre de gravité, sont corrélées
négativement.
Deux variables orthogonales, ,par rapport
au centre, sont non corrélées.
Statistiques
descriptives Connaissance avec les données
Matrice de
corrélation Corrélation entre les variables
Matrice des
valeurs tests
Tableau des
valeurs propres Choix des axes
Contribution des
individus et des
variables
Qualité de
Sélection des points individus et des représentation
points variables à interpréter (Cos²)
RÉCAPITULATIF (2/6)
• Critère de Kaiser : on retient les axes associés aux valeurs propres supérieures à
la valeur propre moyenne. Lorsqu’on travaille sur les données centrées et
réduites (ACP normée), on ne retient que les axes associés aux valeurs propres >
à 1 (valeur propre moyenne).
• Critère du coude (Cattell) : on retient les axes à partir desquels on note une note
décroissance régulière.
• On retient pour l’interprétation les individus dont la contribution est > à la contribution
moyenne.
• Une contribution trop importante d’un des points à un axe doit être regardé avec prudence
(~25% d’inertie).
• Il n’est pas souhaitable qu’un individu ait une contribution excessive à un axe (surtout pour
les premières composantes); cela entraine un facteur d’instabilité !
• Inversement, lorsqu’une contribution d’un individu est très forte par rapport à d’autres qui sont
pourtant en dessus du seuil, le point détermine l’axe presque exclusivement.
RÉCAPITULATIF (4/6)
• En ACP normée, les contributions des variables coïncident avec le carré anciens axes
unitaires; pour connaître la contribution d'une variable à la formation d'un axe, il suffit
d'élever au carré chaque composante du vecteur u.
• On retient pour l’interprétation les variables dont la contribution est > à la contribution
moyenne.
• En ACP normée, ce sont les variables qui sont proches du bord du cercle qui contribuent le
plus.
RÉCAPITULATIF (5/6)
• Un point individu ou variable est bien représenté si son cos2 n’est pas faible (> 0,10).
• Une variable est d’autant mieux représentée sur un axe qu’elle est proche du bord du
cercle des corrélations et de l’axe, d’autant plus mal représentée qu’elle est proche de
l’origine.
• En ACP normée, les variables qui contribuent le plus à l’axe sont aussi celles qui sont le
mieux représentées et inversement.
• En ACP normée, les Cos² des variables coïncident avec le carré des coordonnées des
variables.
RÉCAPITULATIF (6/6)
• Un individu dont la fiabilité est douteuse ou qui a une contribution excessive peut être mis en
supplémentaire.
• Par opposition, un individu qui participe activement aux calculs est appelé individu actif.
• Une variable illustrative ne participe pas aux calculs des composantes principales, mais elle peut être
représentée sur le plan factoriel.
• Par opposition, une variable qui participe activement aux calculs est appelé variable active.
TEST DE CONNAISSANCE
Répondre par vrai ou faux, puis justifier la réponse.
1. Lorsque les variables sont mesurées dans différentes unités, il est recommandé d’utiliser une ACP
normée.
2. Dans une ACP, les composantes principales sont dépendantes entre elles.
3. Pour connaître le nombre d’axes pertinents à analyser, il faut se référer au tableau des vecteurs propres.
4. Les valeurs propres donnent la quantité de variance expliquée par chaque axe principal.
5. Dans une ACP, la variance de la première composante principale est égale à l’inertie du premier axe
principal.
6. Dans une ACP, il y a effet taille lorsque les variables sont du même côté de l’axe.
7. Dans une ACP, l’angle entre deux vecteurs variables est approximativement l’image de leur corrélation.
8. Dans une ACP, sur un axe, plus le cosinus carré est proche de 0, plus le point est bien représenté sur cet
axe.
9. Dans une ACP, un point qui contribue à la formation d’un axe signifie que ce point est explicatif de l’axe.
10. Le cercle de corrélation montre les corrélations entre les composantes principales et les variables
initiales.
11. Si les variables sont indépendantes, l’ACP est inefficace.
12. Dans une ACP, les variables actives sont toujours quantitatives, mais des variables qualitatives peuvent
être introduites comme supplémentaires.
13. Les coordonnées des variables illustratives sont prédites à partir de l’ACP obtenue avec les individus et
variables actifs.