0% ont trouvé ce document utile (0 vote)
36 vues58 pages

Cours 2 - ACP Final

Ce document présente une introduction à l'Analyse en Composantes Principales (ACP), une méthode statistique développée pour résumer des données quantitatives en réduisant leur dimensionnalité tout en préservant l'information essentielle. L'ACP est utilisée pour analyser les relations entre des variables et des individus, illustrée par un exemple de caractéristiques de modèles de voitures. Le document aborde également les matrices de corrélations et les tests statistiques associés, ainsi que les principes et la notation de l'ACP.

Transféré par

maimounathiao
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
36 vues58 pages

Cours 2 - ACP Final

Ce document présente une introduction à l'Analyse en Composantes Principales (ACP), une méthode statistique développée pour résumer des données quantitatives en réduisant leur dimensionnalité tout en préservant l'information essentielle. L'ACP est utilisée pour analyser les relations entre des variables et des individus, illustrée par un exemple de caractéristiques de modèles de voitures. Le document aborde également les matrices de corrélations et les tests statistiques associés, ainsi que les principes et la notation de l'ACP.

Transféré par

maimounathiao
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

UNIVERSITE CHEIKH ANTA DIOP DE DAKAR

FACULTÉ DES SCIENCES ÉCONOMIQUES ET DE GESTION


FACULTÉ DES SCIENCES ET TECHNIQUES
efefefefefef

MASTER

COURS D’ANALYSE DES DONNÉES

CHAPITRE 2 : ANALYSE EN COMPOSANTES PRINCIPALES (ACP)

PROFESSEUR : DR CODÉ LO
INTRODUCTION (1/3)

q Conçue pour la première fois par Karl Pearson en 1901, intégrée à la statistique
mathématique par Harold Hotelling en 1933.
q Méthode factorielle la plus ancienne et la plus simple.
INTRODUCTION (2/3)

q L’ACP s’effectue à partir d’un tableau rectangulaire de mesures, dont les colonnes
figurent des variables quantitatives et dont les lignes représentent les individus sur
lesquels ces variables sont mesurées.

q Autrement dit, il s’agit d’étudier un tableau d’individus x variables où toutes les


variables sont quantitatives.

q Il s'agit d'une technique de représentation des données qui décrit les


similitudes/différences entre les individus et les liaisons entre les variables .

q Autrement, elle permet d’obtenir une représentation des individus en fonction de leurs
proximités et une représentation des variables en fonction de leurs corrélations.
INTRODUCTION (3/3)

q Il est possible d’obtenir sur une même carte des individus et des variables.

q A partir du tableau individus x variables (avec p variables, c’est à dire p dimensions), on


obtient un espace de dimension plus réduite en déformant le moins possible la réalité.

• La finalité est d’obtenir un résumé le plus pertinent et fidèle des données initiales.

q L’ACP est une méthode linéaire de projection qui résume une somme considérable
d’information (occasionnant une perte d’information).

q Champs d’application : sciences économiques, sciences sociales, marketing,


biostatistique, etc.
EXEMPLE : TABLEAU INITIAL

Largeur Longueur
Numéro Modèle Cylindrée (cm3) Puissance (ch) Vitesse (km/h) Poids (kg)
(mm) (mm)
1 Citroën C2 1.1 Base 1124 61 158 932 1659 3666
2 Caractéristiques de 24 modèles de voiture en 2004
Smart Fortwo Coupé 698 52 135 730 1515 2500
3 Mini 1.6 170 1598 170 218 1215 1690 3625
4 Nissan Micra 1.2 65 1240 65 154 965 1660 3715
5 Renault Clio 3.0 V6 2946 255 245 1400 1810 3812
6 Audi A3 1.9 TDI 1896 105 187 1295 1765 4203
7 Peugeot 307 1.4 HDI 70 1398 70 160 1179 1746 4202
8 Peugeot 407 3.0 V6 BVA 2946 211 229 1640 1811 4676
9 Mercedes Classe C 270 CDI 2685 170 230 1600 1728 4528
10 BMW 530d 2993 218 245 1595 1846 4841
11 Jaguar S-Type 2.7 V6 Bi-Turbo 2720 207 230 1722 1818 4905
12 BMW 745i 4398 333 250 1870 1902 5029
13 Mercedes Classe S 400 CDI 3966 260 250 1915 2092 5038
14 Citroën C3 Pluriel 1.6i 1587 110 185 1177 1700 3934
15 BMW Z4 2.5i 2494 192 235 1260 1781 4091
16 Audi TT 1.8T 180 1781 180 228 1280 1764 4041
17 Aston Martin Vanquish 5935 460 306 1835 1923 4665
18 Bentley Continental GT 5998 560 318 2385 1918 4804
19 Ferrari Enzo 5998 660 350 1365 2650 4700
20 Renault Scenic 1.9 dCi 120 1870 120 188 1430 1805 4259

21 Volkswagen Touran 1.9 TDI 105 1896 105 180 1498 1794 4391
22 Land Rover Defender Td5 2495 122 135 1695 1790 3883
23 Land Rover Discovery Td5 2495 138 157 2175 2190 4705
24 Nissan X-Trail 2.2 dCi 2184 136 180 1520 1765 4455

6 variables observées sur 24 individus (ici des modèles de voiture) Source : Tenenhaus, 1996
ETUDE DESCRIPTIVE DES VARIABLES

Libellé de la variable Effectif Moyenne Ecart-type Minimum Maximum


Cylindrée 24 2722,54 1484,52 698,00 5998,00
Puissance 24 206,67 152,44 52,00 660,00
Vitesse 24 214,71 55,38 135,00 350,00
Poids 24 1486,58 379,35 730,00 2385,00
Largeur 24 1838,42 216,19 1515,00 2650,00
Longueur 24 4277,83 569,25 2500,00 5038,00

Commenter brièvement le tableau.


MATRICE DES CORRÉLATIONS (1/3)

Cylindree Puissance Vitesse Poids Longueur Largeur


Cylindree 1,00
Puissance 0,95 1,00
Vitesse 0,89 0,93 1,00
Poids 0,69 0,53 0,47 1,00
Longueur
0,71 0,73 0,62 0,48 1,00

Largeur 0,66 0,53 0,58 0,79 0,59 1,00

Commenter le tableau des corrélations.


MATRICE DES CORRÉLATIONS (2/3)

Cylindree Puissance Vitesse Poids Longueur Largeur


Cylindree 1,00
Puissance 0,95 1,00
Vitesse 0,89 0,93 1,00
Poids 0,69 0,53 0,47 1,00
Largeur 0,71 0,73 0,62 0,48 1,00
Longueur 0,66 0,53 0,58 0,79 0,59 1,00

Il ressort que toutes les variables sont corrélées positivement. Autrement dit, il
existe un facteur taille, et qu’en première analyse peuvent être ordonnées des
voitures les plus petites aux plus grandes.
MATRICE DES CORRÉLATIONS (3/3)

Cylindree Puissance Vitesse Poids Longueur Largeur


Cylindree 1,00
Puissance 0,95 1,00
Vitesse 0,89 0,93 1,00
Poids 0,69 0,53 0,47 1,00
Largeur 0,71 0,73 0,62 0,48 1,00
Longueur 0,66 0,53 0,58 0,79 0,59 1,00

q La vitesse est très corrélée à la puissance et au moins aux autres variables.

q Les variables du groupe (Cylindrée, Puissance et Vitesse) sont bien corrélées entre elles :

• Cor (Cylindrée, Puissance) = 0,95

• Cor (Cylindrée, Vitesse) = 0,89

• Cor (Puissance, Vitesse) = 0,93

q Autre corrélation importante : Poids et Longueur


MATRICE DES VALEURS-TESTS (SPAD)

Cylindree Puissance Vitesse Poids Largeur Longueur


Cylindree 99,99
Puissance 9,18 99,99
Vitesse 6,86 8,27 99,99
Poids 4,17 2,88 2,48 99,99
Largeur 4,31 4,55 3,54 2,54 99,99
Longueur 3,92 2,87 3,23 5,31 3,33 99,99

q C'est un test statistique exprimé en nombre d'écart-types d'une loi normale (comme les
Pvalues dans les autres logiciels statistiques)

q Toutes les corrélations sont significatives au seuil de 5% puisque la valeur lue est
supérieure à 2.

q Plus la v-test est grande (en valeur absolue) :

• Plus la liaison entre variables est significative.


• Autrement dit, moins le hasard a de chance d'être responsable de celle-ci.

q Attention : si les variables sont indépendantes, l’ACP est inefficace.


NOTATION (1/2)

q Les données à analyser se présentent sous la forme d’un tableau individus x Variables.

q Il y a p variables X1,…,Xj,…,Xp observées sur n individus 1,…,i,…,n.

q On note xij la valeur prise par la variable Xj pour l’individu i.

q On note xi = (xi1,…, xip) l’ensemble des caractéristiques de l’individu i.

! 𝐣 la moyenne de la variable Xj
q 𝐱

#
q 𝐬𝐣 ² = ∑$%&#(x%' − x& ' )( la variance de la variable Xj
$

𝐬𝐣 est l’écart type de la variable Xj


NOTATION (2/2)

Variables
1 … j … … p

1
.
.
.
Individus

xi i … xij …
.
.
.
n

… !!
X …
Moyenne
PRINCIPE

q L’ACP consiste à mettre en évidence des relations linéaires fortes entre les variables étudiées, c’est à
dire celles qui différencient le plus les individus entre eux.

q On recherche un petit nombre de nouvelles variables appelées composantes principales (axes


factoriels), combinaisons linéaires de l’ensemble des variables initiales qui gardent le maximum
d’information possible .

q Ces composantes principales sont non corrélées entre elles et résument bien les données de départ.

q Plusieurs critères permettent d’obtenir les composantes principales; le critère de l’inertie est le plus
ancien (Pearson, 1901) et présente un avantage :

• L’approche est géométrique, ce qui permet d’avoir une compréhension plus profonde de la méthode et
une interprétation pertinente.

• D’autres critères existent mais dans ce cours, nous nous limitons à l’approche géométrique de Pearson.
NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (1/7)

q On associe aux données de départ le nuage de points N = (x1,…,xi,…,xn) dans un


espace de dimension p (espace des individus).

q Chaque valeur xi des caractéristiques (xi1,…,xip) de l’individu i est considéré comme


un point d’un espace à p dimension.

q Le centre de gravité du nuage N est le point g, dont les coordonnées sont les
moyennes des différentes variables :

g = ("x! ,…,"x" ,…,"x# ) = x"


q Calculer g sur notre exemple.
NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (2/7)

q Sur notre exemple :

• g = (2723, 207, 215, 1487,1838, 4278).

• En réalité, le vecteur g représente les caractéristiques d’une voiture moyenne.

q La dispersion du nuage N autour de son centre de gravité g est mesurée à l’aide de l’inertie totale
du nuage N définie par :

𝟏
I (N,g) = ∑𝐧𝐢$𝟏 𝐝²( 𝐱 𝐢 , 𝐠)
𝐧

où d²(𝐱 𝐢 , 𝐠) représente le carré de la distance (euclidienne) du point x" au centre de gravité g, calculée en utilisant la
formule habituelle :

𝐩
d²(𝐱 𝐢 , 𝐠)=∑𝐣$𝟏( 𝐱 𝐢𝐣 − 𝐱% 𝐣 )²
NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (3/7)

q L’inertie totale se calcule comme la somme des variances des variables :

'
I (N,g) = ∑()$' d²( x) , g)
(

# )
= $ ∑$%&# ∑'&#( x%' − x% ' )²

) #
= ∑'&# $ ∑$%&#( x%' − x% ' )²

𝐩
I (N,g) = ∑𝐣$𝟏 𝐬𝐣 ²
avec 𝐬𝐣 ² = variance, 𝒔𝒋 = écart type

q Calculons I (N,g) à travers notre exemple.


NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (4/7)

Libellé de la variable Effectif Moyenne Ecart-type Minimum Maximum

Cylindrée 24 2722,54 1484,52 698,00 5998,00

Puissance 24 206,67 152,44 52,00 660,00

Vitesse 24 214,71 55,38 135,00 350,00

Poids 24 1486,58 379,35 730,00 2385,00

Largeur 24 1838,42 216,19 1515,00 2650,00

Longueur 24 4277,83 569,25 2500,00 5038,00

q I (N,g) =1484,52² + 152,44² + 55,38² + 379,35² + 216,19² + 569,25²


= 2 203 799,63 + 2 3237,9536 + 3 066,9444 + 143 906,4225 + 4 6738,1161 + 32 4045,5625
= 2 744 794,63

q De quoi est due l’inertie du nuage a travers cet exemple?


NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (5/7)

q I (N,g) = 2 203 799,63 + 23 237,9536 + 3 066,9444 + 143 906,4225 + 46 738,1161 + 324 045,5625
= 2 744 794,63
q L’inertie est due à un choix d’unité; si on mesurait par exemple la cylindrée en litre au lieu de
cm3, le poids de la cylindrée dans le calcul de l’inertie disparaitrait.

q Quelle est la solution pour neutraliser les unités de mesure ?

Ø Dans la pratique, il est plus préférable d’obtenir une description des données indépendante du choix
des unités.
Ø Pour neutraliser le problème des unités, on remplace les données d’origine par des données
centrées-réduites (on parle alors d’ACP normée) : toutes les variables ont la même influence dans
le calcul des distances entre individus.
Ø A chaque variable Xj , on associe la variable centrée réduite 𝐗 ∗
𝐣 de moyenne 0 et de variance 1.

∗ (𝐱 𝐣 ( 𝐱) 𝐣 )
𝐗𝐣 =
𝐬𝐣
NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (6/7)

q En centrant et réduisant les données initiales, toutes les variables ont la même
influence maintenant dans le calcul des distances entre les individus.
(𝐱 𝐢𝐣 ' 𝐱( 𝐣 )
q Le nouveau tableau étudié est formé alors des quantités : 𝐱 𝐢𝐣∗ =
𝐬𝐣

Variables
1 … j … … p
1
. … …
.
Individus

(𝐱 𝐢𝐣 ' 𝐱( 𝐣 )
x+ ∗ i 𝐱 𝐢𝐣∗ =
𝐬𝐣
.
.
n

Moyenne … 0 …
NUAGE DE POINTS ASSOCIÉ AUX DONNÉES (7/7)

q A l’individu i est maintenant associé le point 𝐱 𝐢 ∗ = (𝐱 𝐢𝟏 ∗ ,…, 𝐱 𝐢𝐣 ∗ , … , 𝐱 𝐢𝐩 ∗ ); le nuage de point devient


alors :

𝐍 ∗ = (𝐱𝟏 ∗ ,…, 𝐱𝐢 ∗ , … , 𝐱𝐧 ∗ )

q Comme 𝐗 ∗
𝐣 est centrée, le centre de gravité du nuage N* nul :

𝐱 𝟏 ∗,…,!
g* = (! 𝐱 𝐣 ∗ ,…,!
𝐱 𝐩 ∗) = 0

q Comme 𝐗 ∗
𝐣 est réduite, son inertie totale est égale au nombre p de variables :

)
I(N*, g) = ∑&'( s& ² donc I(N*, 0) = p

q Inertie totale du nuage des points individus = Inertie totale du nuage des points variables = P

• L’inertie totale est en quelque sorte l’information contenue dans le tableau d’origine
PREMIER AXE PRINCIPAL (1/5)


q Il s’agit de chercher le premier axe principal du nuage de points N*= (𝐱 𝟏 ,…, 𝐱 𝐧 ∗ ).

q On cherche l’axe (premier axe factoriel) sur lequel le nuage N* se déforme le moins possible en
projection (le nuage projeté est d’inertie maximale).

q Autrement, on cherche une droite ∆𝟏 qui passe le mieux possible au milieu du nuage de points N*.

q On mesure la dispersion du nuage N* autour d’une droite ∆ à l’aide de l’inertie I (N*, ∆) du nuage
N* par rapport à la droite ∆ ∶

𝟏 ∗
I (N*, ∆) = ∑𝐧𝐢/𝟏 𝐝²( 𝐱 𝐢 , 𝐲𝐢 )
𝐧


où 𝐲𝐢 est la projection orthogonale du point 𝐱 𝐢 ∗ sur la droite ∆, noté P∆ (x, ).
PREMIER AXE PRINCIPAL (2/5)

q La droite cherchée ∆0 minimise I (N*, ∆) et s’appelle le premier axe principal du


nuage N*= (𝐱 𝟏 ∗ ,…, 𝐱 𝐧 ∗ ).

q ∆𝟏 passe par l’origine 0, centre de gravité du nuage N* des données centrées


réduites; 𝐲𝐢 est la projection orthogonale du point 𝐱 𝐢 ∗ sur la droite ∆0 .
PREMIER AXE PRINCIPAL (3/5)

q ∆4 est engendrée par le vecteur unitaire 𝒖𝟏 dans l’espace à P


dimensions.
A A A
𝒖𝟏 est de norme égale à 1 donc || 𝒖𝟏 || 𝟐 = 𝑢'' + 𝑢'A + ⋯ + 𝑢'B =1

q 𝑢4 est un vecteur propre normé de la matrice R des corrélations


entre les variables Xj associé à la plus grande valeur propre λ1 .
∆𝟏 =λ1𝒖𝟏
PREMIER AXE PRINCIPAL (4/5)

Tableau des valeurs propres : variances (inerties) de chacune des composantes


principales calculées (ou axes factoriels).

Pourcentage
Numéro Valeur propre Pourcentage
cumulé

1 4,4113 73,52 73,52


2 0,8534 14,22 87,74
3 0,4357 7,26 95,01
4 0,2359 3,93 98,94
5 0,0514 0,86 99,79
6 0,0124 0,21 100,00

q λ1 = 4,4113; la variance est maximale sur le premier axe et décroit au fur et à mesure.
q Pourcentage λ1 = (4,4113/6 )*100= 73,52 (% variance expliquée par la première
composante principale = % d’inertie expliqué par le premier axe principal = quantité
d'information recueillie par un axe principal).
q ACP normée, l’inertie totale (la somme des valeurs propres) vaut p=6, avec p le nombre de
variables actives.
PREMIER AXE PRINCIPAL (5/5)

Tableau des vecteurs propres

Libellé de la variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6


Cylindrée 0.46 -0.14 0.21 -0.23 -0.65 0.50
Puissance 0.44 -0.38 0.14 -0.17 -0.09 -0.78
Vitesse 0.42 -0.37 0.31 0.41 0.57 0.31
Poids 0.36 0.62 0.22 -0.53 0.39 0.01
Largeur 0.38 -0.12 -0.88 -0.14 0.15 0.13
Longueur 0.38 0.55 -0.09 0.67 -0.26 -0.19

q Le premier axe principal ∆) (axe 1) est engendré par le vecteur unitaire u1


associé à la plus grande valeur propre λ1 : ∆𝟏 =λ1𝒖𝟏

q Normalisation : 𝒖𝟏 = (0.46, 0.44, 0.42, 0.36, 0.38, 0.38)


|| 𝒖𝟏 || 𝟐 = 0.46² + 0.44² + … + 0.38² =1
Cela prouve bien que les données d’origine ont été remplacées par des données
centrées réduites
Citroen_C2_1.1_Base

PREMIÈRE COMPOSANTE PRINCIPALE (1/8)

q Les composantes principales sont construites de manière à restituer le maximum d’information du


tableau initial.

q La première composante principale 𝐘𝟏 est une nouvelle variable définie pour chaque individu i
par la longueur algébrique de la projection du point x% * sur l’axe ∆# .

q La valeur de Y( (i) est définie :

𝐩 ∗ 𝐩 𝐱𝐢𝐣 - 𝐱/ 𝐣
∑ ∑
𝐘𝟏 𝐢 = 𝐣+𝟏 𝐮𝟏𝐣 𝐱 𝐢𝐣 = 𝐣+𝟏 𝐮𝟏𝐣 ( )
𝐬𝐣

q Y# (i) est donc le produit scalaire entre les vecteurs 𝐮𝟏 et 𝐱 𝐢∗

q Sur notre exemple, calculer 𝐘𝟏 Citroen_C2_1.1_Base


Citroen_C2_1.1_Base

PREMIÈRE COMPOSANTE PRINCIPALE (2/8)

Sur notre exemple, la première composante Y' s’écrit :


𝐘𝟏 (𝒊) = 0,46Cylindrée∗ + 0,44Puissance∗ + 0,42Vitesse∗ + 0,36Poids∗ +
0,38Longueur∗ + 0,38Largeur ∗

𝒀𝟏 Citroen_C2_1.1_Base = 0,46 ∗ −1,08 + 0,44 ∗ −0,96 +


0,42 ∗ −1,02 + 0,36 ∗ −1,46 + 0,38 ∗ (−0,83) + 0,38 ∗ (−1,07)
= -2,60
PREMIÈRE COMPOSANTE PRINCIPALE (3/8)

Coordonnées des composantes principales = projections des individus sur les axes
Coordonnées des individus actifs
Distance à
Identificateur Poids relatif Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6
l'origine
Citroen_C2_1.1_Base 4,17 7,10 -2,60 -0,51 -0,18 0,17 -0,21 -0,03
Smart_Fortwo_Coupe 4,17 20,93 -4,15 -1,67 0,27 -0,92 -0,03 0,03
Mini_1.6_170 4,17 2,93 -1,38 -0,82 0,37 -0,05 0,46 -0,05
Nissan_Micra_1.2_65 4,17 6,61 -2,51 -0,40 -0,17 0,12 -0,29 -0,05
Renault_Clio_3.0_V6 4,17 1,16 0,00 -0,92 0,39 -0,27 0,29 0,13
Audi_A3_1.9_TDI 4,17 1,39 -1,12 0,17 -0,17 0,27 -0,07 0,06
Peugeot_307_1.4_HDI_70 4,17 3,43 -1,73 0,30 -0,41 0,36 -0,24 -0,09
Peugeot_407_3.0_V6_BVA 4,17 0,76 0,55 0,52 0,26 0,34 0,00 -0,01
Mercedes_Classe_C_270_CDI 4,17 0,68 0,08 0,48 0,53 0,37 0,12 0,11
BMW_530d 4,17 1,40 0,84 0,46 0,16 0,68 0,05 0,03
Jaguar_S-Type_2.7_V6_Bi-Turbo 4,17 1,68 0,72 0,90 0,21 0,54 0,10 -0,13
BMW__745i 4,17 5,22 2,13 0,61 0,40 0,16 -0,36 -0,09
Mercedes_Classe_S_400_CDI 4,17 5,66 2,17 0,81 -0,48 0,14 0,06 0,26
Citroën_C3_Pluriel_1.6i 4,17 2,72 -1,62 -0,22 0,02 0,18 -0,01 -0,03
BMW_Z4_2.5i 4,17 0,70 -0,40 -0,60 0,20 0,34 0,13 0,14
Audi_TT_1.8T_180 4,17 1,08 -0,75 -0,46 0,13 0,33 0,41 -0,07
Aston_Martin_Vanquish 4,17 11,62 3,16 -0,64 1,01 -0,20 -0,39 0,23
Bentley_Continental_GT 4,17 20,32 4,16 0,06 1,49 -0,83 0,14 -0,23
Ferrari_Enzo 4,17 34,42 4,95 -2,58 -1,81 0,12 -0,07 -0,10
Renault_Scenic_1.9_dCi_120 4,17 0,93 -0,84 0,38 -0,25 0,11 0,08 -0,01
Volkswagen_Touran_1.9_TDI_105 4,17 1,23 -0,80 0,71 -0,24 0,13 0,00 -0,02
Land_Rover_Defender_Td5 4,17 3,24 -1,07 0,75 -0,18 -1,18 -0,31 0,01
Land_Rover_Discovery_Td5 4,17 7,81 0,85 1,92 -1,52 -1,00 0,31 0,03
Nissan_X-Trail_2.2_dCi 4,17 0,96 -0,61 0,72 -0,05 0,12 -0,17 -0,12
PREMIÈRE COMPOSANTE PRINCIPALE (4/8)

La première composante principale 𝑌' étant très corrélée positivement à toutes


les variables, elle s’interprète comme un facteur taille, classant les voitures :

• les plus petites 𝑌0 (Smart_Fortwo_Coupe) = -4,15


𝑌0 (Citroen_C2_1.1_Base) = -2,60

• aux plus grosses 𝑌0 (Ferrari_Enzo) = 4,95


𝑌0 (Bentley_Continental_GT) = 4,16
PREMIÈRE COMPOSANTE PRINCIPALE (5/8)

q La première composante principale Y0 est centrée puisque combinaison linéaire de


variables centrées; donc, moyenne de 𝐘𝟏 = 0

q On peut remarquer aussi que sa variance vaut λ1 :

𝟏 𝐧 𝟏
Var (𝐘𝟏 ) = ∑ (𝐘 (𝐢) − -𝐘𝟏 )𝟐 = ∑𝐧𝐢$𝟏 𝐘𝟏 𝐢 𝟐
𝐧 𝐢&𝟏 𝟏 𝐧
𝟏
= ∑𝐧𝐢$𝟏 𝐝² 𝐲𝐢 , 𝟎 ²
𝐧
= I({𝐲𝟏 , … , 𝐲𝐧},0) = λ1

q La variance de la première composante principale 𝐘𝟏 est égale à l’inertie du nuage


des points projetés sur ∆𝟏 , par rapport au centre de gravité 0.
PREMIÈRE COMPOSANTE PRINCIPALE (6/8)

q Les corrélations entre les variables initiales X & et la composante principale Y( peuvent être calculées à
l’aide de la formule :

Cor(𝐗 𝐣 , 𝐘𝟏 )= λ1 𝐮𝟏𝐣

q On en déduit que la proximité de Y( à l’ensemble des variables vaut :

𝟏 λ1
∑𝐩𝐣&𝟏 𝐜𝐨𝐫²(𝐗 𝐣 , 𝐘𝟏 )=
𝐩 𝐩

4,4113
q Sur l’exemple, on obtient
.
= 0,7352
PREMIÈRE COMPOSANTE PRINCIPALE (7/8)

Calculer
¡ Cor(Cylindrée, 𝐘𝟏 )
¡ Cor(L𝐨𝐧𝐠𝐮𝐞𝐮𝐫, 𝐘𝟏 )
PREMIÈRE COMPOSANTE PRINCIPALE (8/8)

q Le tableau ci-après présente les corrélations entre les variables initiales


XL et la première composante Y' (première colonne).
q Il permet d’identifier les variables corrélées aux composantes principales.

Corrélations des variables actives avec


les facteurs
Libellé de la variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6
Cylindree 0,96 -0,13 0,14 -0,11 -0,15 0,06
Puissance 0,92 -0,35 0,09 -0,08 -0,02 -0,09
Vitesse 0,89 -0,34 0,21 0,20 0,13 0,03
Poids 0,76 0,58 0,15 -0,26 0,09 0,00
Largeur 0,80 -0,11 -0,58 -0,07 0,03 0,01
Longueur 0,80 0,50 -0,06 0,33 -0,06 -0,02

La première composante principale 𝑌0 étant très corrélée positivement à toutes les


variables, elle s’interprète comme un facteur taille, déjà détecté à travers la matrice
des corrélations entre les variables initiales.
QUALITÉ GLOBALE DE LA PREMIÈRE COMPOSANTE
(1/3)

q Pour mesurer la qualité globale de la première composante principale comme


résumé des données, on utilise une formule de décomposition de l’inertie totale que
nous allons construire.

q Le vecteur y+ étant la projection orthogonale du vecteur x+ ∗ sur la droite ∆0 , on a :

d²( x+ ∗, 0) = d²( x+ ∗, y+ ) + d²( y+ , 0) d’où

0 0 0
∑2+/0 d²( x+ ∗, 0) = ∑2+/0 d²( y+ , 0) + ∑2+/0 d²( x+ ∗, y+ )
2 2 2

𝟏
O𝐫 ∑𝐧𝐢/𝟏 𝐝²( 𝐱 𝐢 ∗, 𝟎) = I(N∗,0) = 𝐩 = 𝐈𝐧𝐞𝐫𝐭𝐢𝐞 𝐭𝐨𝐭𝐚𝐥𝐞
𝐧
QUALITÉ GLOBALE DE LA PREMIÈRE COMPOSANTE
(2/3)
q L’inertie totale:
0 0
I(N*,0)= ∑2+/0 d²( y+ , 0) + ∑2+/0 d²( x+ ∗, y+ ) = p se decompose donc en deux parties ∶
2 2

• Le premier terme ∑$%&# d²( y% , 0) = I({y#,…, y$ }, 0) représente l’inertie totale du nuage


{y#,…, y$ } des projections des points x% ∗ sur l’axe ∆#; elle représente l’inertie expliquée par l’axe ∆#
et vaut λ1.

• Le deuxième terme ∑$%&# d²( x% ∗, y% ) = I(N*, ∆#) représente l’inertie résiduelle du nuage N* autour
de ∆#.
q Sur l’exemple des voitures, on obtient :
Inertie totale = p = 6
Inertie expliquée par ∆𝟏 : λ1 = 4,4113
Inertie résiduelle : p- λ1 =1,344
QUALITÉ GLOBALE DE LA PREMIÈRE COMPOSANTE
(3/3)
q On mesure la qualité globale de la première composante principale par la part
λ1
d'inertie expliquée 3
.

q On retrouve ainsi la proximité de la composante principale Y0 à l4 ensemble


des variables.

4,4113
q Sur l’exemple, la part d’inertie expliquée par ∆0 vaut =0,7352.
5

• On peut dire que 73,5% de l’inertie totale est expliquée par l’allongement du nuage le long
du premier axe principal.

• Autrement dit, la première composante principale explique 73,5% de la variance totale.


QUALITÉ DE REPRÉSENTATION DES INDIVIDUS SUR
LE PREMIER AXE PRINCIPAL (1/3)

q On mesure la qualité de représentation de chaque individu sur l’axe


∆E à l’aide du cosinus carré de l’angle formé par le vecteur xF ∗ et
l’axe ∆E :

d²( 𝐲𝐢 ,𝟎) 𝐘𝟏 (𝐢)²


cos²( 𝐱 𝐢 ∗, ∆𝟏 ) = d²( 𝐱 ∗,𝟎) = d²( 𝐱 ∗,𝟎)
𝐢 𝐢

q Le Cos² renseigne donc sur l'angle que fait la droite reliant le


centre de gravité du nuage de points ( xF ∗) et le point étudié, avec
l'axe considéré (∆E ).

q Un Cos² proche de 1 signifie que l’angle en question est proche de


0; autrement dit, les distances sont moins altérées par la projection.
QUALITÉ DE REPRÉSENTATION DES INDIVIDUS SUR
LE PREMIER AXE PRINCIPAL (2/3)
Cosinus carrés des individus actifs
Distance à
Identificateur Poids relatif Axe 1 Axe 2 Axe 3 Axe 4 Axe 5 Axe 6
l'origine
Citroen_C2_1.1_Base 4,17 7,10 0,95 0,04 0,00 0,00 0,01 0,00
Smart_Fortwo_Coupe 4,17 20,93 0,82 0,13 0,00 0,04 0,00 0,00
Mini_1.6_170 4,17 2,93 0,65 0,23 0,05 0,00 0,07 0,00
Nissan_Micra_1.2_65 4,17 6,61 0,96 0,02 0,00 0,00 0,01 0,00
Renault_Clio_3.0_V6 4,17 1,16 0,00 0,72 0,13 0,06 0,07 0,02
Audi_A3_1.9_TDI 4,17 1,39 0,90 0,02 0,02 0,05 0,00 0,00
Peugeot_307_1.4_HDI_70 4,17 3,43 0,87 0,03 0,05 0,04 0,02 0,00
Peugeot_407_3.0_V6_BVA 4,17 0,76 0,40 0,36 0,09 0,15 0,00 0,00
Mercedes_Classe_C_270_CDI 4,17 0,68 0,01 0,34 0,41 0,20 0,02 0,02
BMW_530d 4,17 1,40 0,50 0,15 0,02 0,33 0,00 0,00
Jaguar_S-Type_2.7_V6_Bi-Turbo 4,17 1,68 0,31 0,48 0,03 0,17 0,01 0,01
BMW__745i 4,17 5,22 0,87 0,07 0,03 0,01 0,02 0,00
Mercedes_Classe_S_400_CDI 4,17 5,66 0,83 0,12 0,04 0,00 0,00 0,01
Citroën_C3_Pluriel_1.6i 4,17 2,72 0,97 0,02 0,00 0,01 0,00 0,00
BMW_Z4_2.5i 4,17 0,70 0,23 0,51 0,06 0,16 0,02 0,03
Audi_TT_1.8T_180 4,17 1,08 0,52 0,20 0,02 0,10 0,16 0,01
Aston_Martin_Vanquish 4,17 11,62 0,86 0,04 0,09 0,00 0,01 0,00
Bentley_Continental_GT 4,17 20,32 0,85 0,00 0,11 0,03 0,00 0,00
Ferrari_Enzo 4,17 34,42 0,71 0,19 0,10 0,00 0,00 0,00
Renault_Scenic_1.9_dCi_120 4,17 0,93 0,76 0,16 0,06 0,01 0,01 0,00
Volkswagen_Touran_1.9_TDI_105 4,17 1,23 0,53 0,41 0,05 0,01 0,00 0,00
Land_Rover_Defender_Td5 4,17 3,24 0,35 0,17 0,01 0,43 0,03 0,00
Land_Rover_Discovery_Td5 4,17 7,81 0,09 0,47 0,29 0,13 0,01 0,00
Nissan_X-Trail_2.2_dCi 4,17 0,96 0,39 0,54 0,00 0,01 0,03 0,01
QUALITÉ DE REPRÉSENTATION DES INDIVIDUS SUR
LE PREMIER AXE PRINCIPAL (3/3)

q D’après le tableau précédent, nous avons :


• Cos² (Nissan_Micra_1.2_65, ∆E ) = 0,96
• Cos² (Mercedes_Classe_C_270_CDI, ∆E ) = 0,01

q Conclusion
Le Nissan Micra est très bien représenté sur le premier axe ∆4
contrairement à la Mercedes Classe C270 qui n’est pas bien
représentée.
DEUXIÈME AXE PRINCIPAL ET DEUXIÈME
COMPOSANTE PRINCIPALE
q On recherche le deuxième axe principal ∆/ orthogonal à ∆( et passant le mieux possible au milieu du
nuage (le nuage se déforme le moins en projection après le premier axe : ∆/ restitue la plus
importante part de l’inertie après ∆( ).

q Il passe par le centre de gravité 0 du nuage de points et est engendré par le vecteur normé u2, vecteur
propre de la matrice des corrélations R associé à la deuxième plus grande valeur propre λ2.

q La deuxième composante principale Y2 est définie par projection des points sur le deuxième axe
principal.

q La deuxième composante principale Y2 est centrée, de variance λ2, et non corrélée à la première
composante principale Y1.

q Plus globalement, chaque axe est indépendant du suivant.


QUALITÉ GLOBALE DE L’ANALYSE

q Inertie totale = variance totale = p

λ1
q Part de variance expliquée par la première composante principale =
)

λ2
q Part de variance expliquée par la deuxième composante principale =
)

λ1 + λ2
q Part de variance expliquée par les deux premières composantes principales =
)

q Et ainsi de suite pour les autres dimensions : on réitére le processus jusqu’à restituer l’intégralité de
l’inertie du nuage.
LA CARTE DES INDIVIDUS (1/2)

q Les projections des points x\ ∗ sur le plan principal (∆4 ,∆] ) ont
pour coordonnées sur les axes principaux ∆4 et ∆], les valeurs
Y4 i et Y] i .

q Le graphique A\ = (Y4 i , Y] i ) nous donne ainsi le meilleur


résumé des données dans un plan.
LA CARTE DES INDIVIDUS (2/2)
PREMIER PLAN FACTORIEL (1/2)

14,2%
Familiales

Grosses
Petites
73,5%

Sportives
PREMIER PLAN FACTORIEL (2/2)

q Le premier plan explique 87,7% de la variance totale.

q Les voitures s’organisent :

• le long du premier axe en fonction de leur gamme des plus petites (Smart Fortwo Coupé,
Nissan Micra 1.2 , Citroën C3) aux plus grosses (Bentley Continental, BM 745).

• le long du deuxième axe en fonction du caractère familiale (Volkswagen Touran, Land


Rover Discovery) ou sportif (Ferrari Enzo, Renault Clio 3.0 V6)
LA CARTE DES VARIABLES OU CERCLE DE
CORRELATION (1/5)

q Le cercle de corrélation représente la projection des variables sur le plan des composantes
principales (cercle de rayon 1).
q En ACP normée les corrélations avec les composantes principales (facteurs) coïncident avec
les coordonnées des variables.
q Aussi, les Cos² des variables représentent le carré des coordonnées des variables.

Axe des abscisses : axe 1 = facteur 1


Axe des ordonnées :axe 2 = facteur 2
LA CARTE DES VARIABLES OU CERCLE DE
CORRELATION (2/5)
Corrélation des variables actives avec les facteurs

q On peut remarquer que la première composante principale est corrélée positivement à


toutes les variables (facteur taille); autrement, les variables sont du même côté de l’axe 1
(elles contribuent dans le même sens à la formation de l’axe 1).

q La deuxième composante principale oppose (poids, longueur) à (puissance, vitesse)


LA CARTE DES VARIABLES OU CERCLE DE
CORRELATION (3/5)
Corrélation des variables actives avec les facteurs

La projection d’une variable (flèche) sur le


premier axe représente le coefficient de
corrélation entre cette variable et la 1e
composante principale.

Exemple : Cylindrée est très corrélée avec


la 1e composante principale (0,96).
Autrement dit, cylindrée est contributive
sur cet axe et sur le premier plan factoriel
(F1, F2) puisqu’elle est proche du cercle de
corrélation).
LA CARTE DES VARIABLES OU CERCLE DE
CORRELATION (4/5)
Corrélation des variables actives entre elles
Corrélation entre A et B = cos (A,B)

Approximativement :
Deux variables proches sont corrélées
positivement.
Deux variables opposées, par rapport au
centre de gravité, sont corrélées
négativement.
Deux variables orthogonales, ,par rapport
au centre, sont non corrélées.

Exemple : vitesse et puissance sont


fortement corrélées positivement. Idem
pour Poids et Longueur.
LA CARTE DES VARIABLES OU CERCLE DE
CORRELATION (5/5)
Qualité de représentation des variables actives
Une variable est d’autant mieux
représentée sur un axe qu’elle est proche
du bord du cercle des corrélations et de
l’axe, d’autant plus mal représentée
qu’elle est proche de l’origine.

Exemple: Cylindrée est proche du cercle


de corrélation et proche aussi de l’axe 1,
on conclut qu’elle est bien représentée sur
cet axe. En revanche, sur l’axe 2, elle n’est
pas bien représentée.

Plus globalement, sur l’axe 1, toutes les


variables sont bien représentées.
LE BIPLOT : CARTE DES VARIABLES ET DES
INDIVIDUS
Comme nous connaissons maintenant les coordonnées des individus et des
variables sur chaque axe, nous pouvons les représenter sur un plan.

q Représentation simultanée des individus et des variables


RÉCAPITULATIF : AVANT LA PHASE
D’INTERPRÉTATION (1/6)

Statistiques
descriptives Connaissance avec les données

Matrice de
corrélation Corrélation entre les variables

Matrice des
valeurs tests

Tableau des
valeurs propres Choix des axes

Contribution des
individus et des
variables
Qualité de
Sélection des points individus et des représentation
points variables à interpréter (Cos²)
RÉCAPITULATIF (2/6)

Tableau des valeurs propres

Choix des axes à consever : critères principaux :

• Critère de Kaiser : on retient les axes associés aux valeurs propres supérieures à
la valeur propre moyenne. Lorsqu’on travaille sur les données centrées et
réduites (ACP normée), on ne retient que les axes associés aux valeurs propres >
à 1 (valeur propre moyenne).

• Critère du coude (Cattell) : on retient les axes à partir desquels on note une note
décroissance régulière.

• On peut retenir les axes associés à un % de variance cumulée conservée


supérieur à 70% .
RÉCAPITULATIF (3/6)

Contribution des individus

• Il s’agit de la contribution d’un individu à la construction ou à la fabrication d’un axe;


l'addition de toutes les contributions sur un axe est égale à 1 (ou 100 en pourcentage).

• On retient pour l’interprétation les individus dont la contribution est > à la contribution
moyenne.

• Une contribution trop importante d’un des points à un axe doit être regardé avec prudence
(~25% d’inertie).

• Il n’est pas souhaitable qu’un individu ait une contribution excessive à un axe (surtout pour
les premières composantes); cela entraine un facteur d’instabilité !

• Inversement, lorsqu’une contribution d’un individu est très forte par rapport à d’autres qui sont
pourtant en dessus du seuil, le point détermine l’axe presque exclusivement.
RÉCAPITULATIF (4/6)

Contribution des variables

• Il s’agit de la contribution d’une variable à la construction ou à la fabrication d’un axe;


l'addition de toutes les contributions sur un axe est égale à 1 (ou 100 en pourcentage).

• En ACP normée, les contributions des variables coïncident avec le carré anciens axes
unitaires; pour connaître la contribution d'une variable à la formation d'un axe, il suffit
d'élever au carré chaque composante du vecteur u.

• On retient pour l’interprétation les variables dont la contribution est > à la contribution
moyenne.

• En ACP normée, ce sont les variables qui sont proches du bord du cercle qui contribuent le
plus.
RÉCAPITULATIF (5/6)

Cos² (Qualité de représentation)

• Un point individu ou variable est bien représenté si son cos2 n’est pas faible (> 0,10).

• Une variable est d’autant mieux représentée sur un axe qu’elle est proche du bord du
cercle des corrélations et de l’axe, d’autant plus mal représentée qu’elle est proche de
l’origine.

• En ACP normée, les variables qui contribuent le plus à l’axe sont aussi celles qui sont le
mieux représentées et inversement.

• En ACP normée, les Cos² des variables coïncident avec le carré des coordonnées des
variables.
RÉCAPITULATIF (6/6)

q Individu supplémentaire ou illustratif

• Un individu supplémentaire ou illustratif permet d’enrichir l’analyse et l’interprétation sans


participer aux calculs des composantes principales.

• Un individu dont la fiabilité est douteuse ou qui a une contribution excessive peut être mis en
supplémentaire.

• Un individu supplémentaire peut être positionné sur le plan factoriel.

• Par opposition, un individu qui participe activement aux calculs est appelé individu actif.

q Variable supplémentaire ou illustrative

• Une variable illustrative ne participe pas aux calculs des composantes principales, mais elle peut être
représentée sur le plan factoriel.

• Une variable dont on doute de la fiabilité peut être mise en supplémentaire.

• Par opposition, une variable qui participe activement aux calculs est appelé variable active.
TEST DE CONNAISSANCE
Répondre par vrai ou faux, puis justifier la réponse.
1. Lorsque les variables sont mesurées dans différentes unités, il est recommandé d’utiliser une ACP
normée.
2. Dans une ACP, les composantes principales sont dépendantes entre elles.
3. Pour connaître le nombre d’axes pertinents à analyser, il faut se référer au tableau des vecteurs propres.
4. Les valeurs propres donnent la quantité de variance expliquée par chaque axe principal.
5. Dans une ACP, la variance de la première composante principale est égale à l’inertie du premier axe
principal.
6. Dans une ACP, il y a effet taille lorsque les variables sont du même côté de l’axe.
7. Dans une ACP, l’angle entre deux vecteurs variables est approximativement l’image de leur corrélation.
8. Dans une ACP, sur un axe, plus le cosinus carré est proche de 0, plus le point est bien représenté sur cet
axe.
9. Dans une ACP, un point qui contribue à la formation d’un axe signifie que ce point est explicatif de l’axe.
10. Le cercle de corrélation montre les corrélations entre les composantes principales et les variables
initiales.
11. Si les variables sont indépendantes, l’ACP est inefficace.
12. Dans une ACP, les variables actives sont toujours quantitatives, mais des variables qualitatives peuvent
être introduites comme supplémentaires.
13. Les coordonnées des variables illustratives sont prédites à partir de l’ACP obtenue avec les individus et
variables actifs.

Vous aimerez peut-être aussi