0% ont trouvé ce document utile (0 vote)
24 vues39 pages

CH 3

Le chapitre 3 traite de l'Analyse en Composantes Principales (ACP) en présentant les données, la détermination des facteurs et des composantes principales, ainsi que l'interprétation des résultats. L'ACP permet de synthétiser l'information de plusieurs variables en créant des composantes principales qui représentent au mieux la variance des données. Le document explique également la différence entre les analyses unidimensionnelles et multidimensionnelles, et comment visualiser les relations entre les individus et les variables.

Transféré par

Ghassen Htu
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
24 vues39 pages

CH 3

Le chapitre 3 traite de l'Analyse en Composantes Principales (ACP) en présentant les données, la détermination des facteurs et des composantes principales, ainsi que l'interprétation des résultats. L'ACP permet de synthétiser l'information de plusieurs variables en créant des composantes principales qui représentent au mieux la variance des données. Le document explique également la différence entre les analyses unidimensionnelles et multidimensionnelles, et comment visualiser les relations entre les individus et les variables.

Transféré par

Ghassen Htu
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 3:

Analyse en Composantes Principales

Dr Hella Ben Brahim Neji

Décembre 2024 (semestre 3)


Introduction
I - Présentation des données :
II – La détermination des facteurs et des composantes
principales :
1. Analyse de l’espace des individus
2. Analyse de l’espace des variables
3. Equivalence des deux analyses
Plan du cours 4. La part de variance expliquée par un axe
III – L’interprétation des résultats :
1. La représentation des variables
2. Le calcul des coefficients de corrélation
3. La représentation des individus
4. La qualité de représentation d’un point-individu
5. Les contributions des individus à la variance
Introduction Rappel sur l’analyse univariée et l’analyse bivariée
À travers un exemple (activité 1 sur spss, durée 1h)
PAYS EVI ANA
1Algérie 53,2 52,5 Analyse univariée
2Maroc 52,9 78,6
3Inde 49,5 60
4Iran 51 65,5
5Belgique 71 12,8
6Japon 73,3 2
7Thailande 58 18
8Brésil 61,4 33
9Turquie 56,9 44
10Mexique 63,2 24 Analyse bivariée
11USA 71,3 1
12France 72,6 3
13Allemagne 70,6 1
14Italie 72 7
15Espagne 72,1 19,9
16Suède 73,3 0,1
17GB 72,3 10
moy 64,39 25,44
sigma 8,75 24,82
max 73,3 20,68
Présentation Pourquoi nous effectuons une analyse en composante
principale dans l’analyse de données??
des données
Pourquoi nous effectuons une analyse en composante
principale dans l’analyse de données??
Objectif du cours
Pour comprendre l’intérêt de l’analyse Acp on doit:

1. Montrer la différence entre une analyse Unidimensionnelle (statistique descriptive) et L’analyse


multidimensionnelles (analyse de données)
*analyse Unidimensionnelle, on étudie chaque variable à part, les modalités que
Prend la variable est l’élément distinctif seulement
Age Effectif
Il existe 20 étudiants âgés de 20 ans, on ne connait pas ces
18 15 étudiants ni leur part individuelle dans l’éloignement de la
19 30 valeur moyenne.
20 20 Si on effectue une autre étude sur ces 80 étudiants (exp:
poids) l’analyse statistique sera faite à part puisque ce sont
21 15 des données regroupées
*analyse multidimensionnelles
- Elle prend en considération la part de chaque individu dans la variance, c’est-à-dire son éloignement de la valeur
moyenne rappel V(x)= (∑(x – moy)²)/n,
- Elle permet de voir les données dans l’espace des individus et dans l’espace des variables

2. Montrer la différence entre l’économétrie, l’analyse de données


Visualiser
Changement d’origine et de repère
Objectif du cours
l’analyse Acp permet de lire toutes les variables ensemble et de distinguer tous les individus
par rapport à l’individu moyen, celui qui détient la valeur moyenne pour toutes les variables
Projection des ind. sur le plan factoriel ( 1 x 2)
Observations avec la somme des cosinus carrˇs >= 0,00
Var. illustrative : Sujet Projection des variables sur le plan factoriel ( 1 x 2)
2,0
1,0
1,5
Andr Brigitte
1,0 Math
Didier
Jean 0,5 Sciences
0,5 Aline
Fact. 2 : 23,01%

Fact. 2 : 23,01%
Monique
0,0
0,0
-0,5
Annie Musique
-1,0 Latin

Evelyne -0,5
Fran¨ais
-1,5 Pierre

-2,0
-1,0
-2,5
-5 -4 -3 -2 -1 0 1 2 3 4 5 -1,0 -0,5 0,0 0,5 1,0
Active Active
Fact. 1 : 57,24%
Fact. 1 : 57,24%
I - Présentation des données :
X1 X2 ….. Xp-1 Xp
1 x11 x21 ….. x(p-1)1 xp1
2 x12 x22 ….. x(p-1)2 xp2
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .

n-1 x1(n-1) x2(n-1) ….. x(p-1)(n-1) xp(n-1)


n x1n x2n ….. x(p-1)n xpn

n lignes (chaque ligne représente un individu de l’échantillon - n observations)


p colonnes. (nombre de variables quantitatives mesurées sur les n individus.)

Ainsi par le biais de l’ACP, on va synthétiser l’information fournie par les p variables et ce en construisant un
certain nombre de variables nouvelles, les composantes principales, qui sont des combinaisons linéaires des
différentes variables initiales.
I - Présentation des données :
Elève Math Sciences Français Latin Musique
Jean 6 6 5 5,5 8
Aline 8 8 8 8 9
Annie 6 7 11 9,5 11
Monique 14,5 14,5 15,5 15 8
Didier 14 14 12 12 10
André 11 10 5,5 7 13
Pierre 5,5 7 14 11,5 10
Brigitte 13 12,5 8,5 9,5 12
Evelyne 9 9,5 12,5 12 18

Dans l’espace des individus, les axes seront les variables et donc l’individu Jean a cinq coordonnées
par rapport aux cinq variables, les coordonnées de Jean (6, 6, 5, 5.5, 8)

Dans l’espace des variables , les axes seront les individus et donc la variable Math a 9 coordonnées
par rapport aux 9 individus, les coordonnées de Math (6, 8, 6, 14.5, 14, 11, 5.5, 13,9)
I - Présentation des données :
1. On dispose d’un nombre élevé d’observations et de variables qu’on ne peut pas représenter
simultanément. En effet, lorsque le nombre de variables dépasse les trois, on ne peut plus représenter
les individus dans un espace de plus de trois dimensions.

2. Les p variables quantitatives X1, X2, X3, … et Xp peuvent être corrélées entre elles.
L’information qu’elles véhiculent ensemble est caractérisée par une certaine redondance. Autrement,
l’information fournie par une variable peut être répétée partiellement par d’autres.

3. les variables étudiées ne sont pas, en général, homogènes. Elles peuvent avoir des unités de
mesure différentes (années, kg, mètre, litre, …) et/ou des échelles différentes (l’ordre de grandeur des
différentes variables n’est pas le même).
I - Présentation des données :
Exemple : considérons deux variables vitesse d’un microprocesseur et capacité d’une disque
dur mesurées sur cinq ordinateurs. Dans ce cas, on peut représenter les cinq ordinateurs
dans le plan formé par les deux variables VIT (X1) et CAP (X2).

Ordi VIT (GHZ) CAP 140

(GB) 120

100

Capacité (GB)
1 1.3 6 80

2 2.6 40 60

40
3 3 120 20

4 0.6 4 0
0 0,5 1 1,5 2 2,5 3 3,5
5 2.8 60 Vitesse (GHZ)

𝜎𝑉𝐼𝑇 = 0,94  CAP = 47.06 CAP = 46 VIT = 2.06


I - Présentation des données :
𝑉𝐼𝑇−𝑉𝐼𝑇 𝐶𝐴𝑃 − 𝐶𝐴𝑃
෪ =
Ӝ1 = 𝑉𝐼𝑇 ෫
𝜎𝑉𝐼𝑇 Ӝ2= 𝐶 𝐴𝑃 =
𝜎𝐶𝐴𝑃

V. C. Réduite 2
Ӝ1 Ӝ2 Variables 1,5
-0,807 -0,94 centrées
1
0,574 -0,14 réduites

Capacité
0,5
0,998 1,737
0
-1,551 -0,99 -2 -1,5 -1 -0,5 0 0,5 1 1,5
-0,5
0,786 0,329
-1
0,000 0,000
-1,5
1 1 Vitesse
La détermination
des facteurs et 1. Analyse de l’espace des individus

des composantes 2. Analyse de l’espace des variables


3. Equivalence des deux analyses

principales : 4. La part de variance expliquée par un axe


I - Présentation des données :
1. Analyse de l’espace des individus
L’Analyse en Composantes Principales peut être représentée dans deux espaces : celui des individus et celui
des variables. Le problème est la recherche du vecteur U qui
rend maximum la quantité
A la première étape, l’ACP détermine l’axe D1
1
passant par l’origine (le centre de gravité du 𝑈′X෩i ′X෩i 𝑈 𝜕𝐿 2
𝑛
nuage) selon lequel l’inertie du nuage de = X෩i ′X෩i 𝑈 − 2𝜆𝑈 = 0
points est maximale. 𝜕𝑈 𝑛
, avec la contrainte U’U = 1 2
xij − xlj j (le vecteur est de norme 1). X෩i ′X෩i 𝑈 = 2𝜆𝑈
𝑥෦ 𝑛
𝑖𝑗 = La recherche d’un maximum 1
σXj X෩i ′X෩i 𝑈 = 𝜆𝑈
devient un problème 𝑛
d’optimisation sous contrainte. 𝑅𝑈 = 𝜆𝑈
x෤ 11 x෤ 21 x෤ 31 ⋯ x෤ p1 Soit le lagrange L définie par
x෤ 12 x෤ 22 x෤ 32 ⋯ x෤ p2
1
x෤ 13 x෤ 23 x෤ 33 ⋯ x෤ p3 𝐿= 𝑈′X෩i ′X෩i 𝑈 − 𝜆(𝑈′𝑈 − 1)
𝑛
෩ =
X𝑖 ⋮ ⋮ ⋮ ⋯ ⋮
⋮ ⋮ ⋮ ⋯ ⋮ Donc U est un vecteur propre de la matrice de corrélation R
⋮ ⋮ ⋮ ⋯ ⋮ associé à la valeur propre la plus élevée
x෤ 1n x෤ 2n x෤ 3n ⋯ x෤ pn
II – La détermination des facteurs et des
composantes principales :
1. Analyse de l’espace des individus
Ainsi à la première étape, l’ACP fournit la meilleure représentation
unidimensionnelle possible du nuage de point mais elle s’avère insuffisante pour
I - Présentation des données :
décrire complètement le nuage de n points. La dispersion du nuage dans les directions
II – La détermination de l’espace orthogonales à D1 n’est pas décrite par cette étape.
des facteurs et des
composantes
Durant la seconde étape, l’ACP détermine un axe D2 de vecteur directeur
principales :
normé u2 orthogonal à u1 passant au plus près du nuage de points. Le vecteur u2 est
1. Analyse de l’espace des individus
le vecteur propre normé de la matrice R associé à sa deuxième valeur propre.
2. Analyse de l’espace des variables

3. Equivalence des deux analyses

4. La part de variance expliquée par un


On continue ainsi de suite la procédure, afin de compléter la description du nuage
axe de points donnée par les deux premières étapes.
III – L’interprétation des résultats :

1. La représentation des variables A l’étape k, l’ACP détermine l’axe Dk passant par l’origine, de vecteur directeur
2. Le calcul des coefficients de
corrélation
normé uk orthogonal aux différents vecteurs ul (l=1, 2, 3,…, k-1) selon lequel la
3. La représentation des individus
dispersion du nuage de points est maximale. Cet axe Dk passe au plus près du
4. La qualité de représentation d’un nuage de points.
point-individu

5. Les contributions des individus à la


variance

20
II – La détermination des facteurs et des
composantes principales :
2. Analyse de l’espace des variables
I - Présentation des données :

II – La détermination
des facteurs et des
composantes
principales :
1. Analyse de l’espace des individus

2. Analyse de l’espace des variables

3. Equivalence des deux analyses

4. La part de variance expliquée par un


axe

III – L’interprétation des résultats :

1. La représentation des variables

2. Le calcul des coefficients de


corrélation

3. La représentation des individus

4. La qualité de représentation d’un


point-individu

5. Les contributions des individus à la


variance
II – La détermination des facteurs et des
composantes principales :
2. Analyse de l’espace des variables
I - Présentation des données :

II – La détermination
des facteurs et des
composantes
principales :
1. Analyse de l’espace des individus

2. Analyse de l’espace des variables

3. Equivalence des deux analyses

4. La part de variance expliquée par un


axe

III – L’interprétation des résultats :

1. La représentation des variables

2. Le calcul des coefficients de


corrélation

3. La représentation des individus

4. La qualité de représentation d’un


point-individu

5. Les contributions des individus à la


variance
II – La détermination des facteurs et des
composantes principales :

<𝑋෨ 𝐼, 𝐶1>
l’espace des individus 𝜌𝑋෨ 𝐼?𝐶1 = cos α= ෪ 𝐼 ||.| 𝐶1 |
||𝑋
C1
α
.
II – La détermination des facteurs et des
composantes principales :
3. Equivalence des deux analyses

Dans l’espace des individus, à l’étape k, la solution est le facteur uk , vecteur propre
d’ordre k de la matrice
1
n
~ ~
X' X

1~ ~
1
n
~ ~
XX'

X' X
n
Dans l’espace des variables, la solution, la composante principale Ck est le kème
.

vecteur propre de
1 ~~
XX'
n
On prouve que les deux approches conduisent aux mêmes résultats et il y a une
coïncidence entre les deux valeurs propres relatives à n’importe quelle étape k.
A retenir de l’étape 1:
1. Pour trouver le premier axe où l’inertie expliquée est maximale, on détermine les valeurs propres (vecteur
des valeurs propres de la matrice R= 1/n(𝑋 ෪′ 𝑋),
෨ c’est la matrice de corrélation des variables, sa dimension
sera (k,k),
2. la valeur propre 𝜆1 correspond au premier axe où l’inertie expliquée est maximale et l’inertie résiduelle
est minimale,
3. la deuxième valeur propre 𝜆2qui est < à 𝜆1 donne le deuxième axe D2, où l’inertie résiduelle est de
nouveau minimale et l’inertie expliquée maximale mais toujours est-il, elle est moins importante que celle
donnée par le premier axe
4, L’opération se répète jusqu’à l’obtention des K axes au même nombre que les axes initiaux mais dont les
deux premiers résument de façon optimale le nuage de point. On voit donc,
- si le nuage est très dispersé ou pas,
- les individus les plus importants qui contribuent le plus dans la dispersion (la variance)
- la corrélation des variables et son sens
5. L’analyse ACP permet donc de voir un nuage de points compact en un autre plus dispersé
.

II – La détermination des facteurs et des


composantes principales :
4. La part de variance expliquée par un axe

1 ~ ~
X' X
n

1

X′ ෩
X
n

1 ~ ~
XX'
n

1

X෩X′
n
.
III – L’interprétation des résultats :
1. La représentation des variables

1 ~ ~
X' X
n

Les coefficients de corrélation entre les variables de départ et les composantes


principales sont calculés facilement.

~
Le vecteur constitué par les corrélations des p variables X j avec la composante
principale r est égale au vecteur d’ordre r ur multiplié par λr .
.
III – L’interprétation des résultats :
1. La représentation des variables

1 ~ ~
X' X
n

1

X′ ෩
X
n

1 ~ ~
XX'
n

1 ~
X


X෩
j

X′ ෩
Xj
n
.
III – L’interprétation des résultats :
2. Le calcul des coefficients de corrélation

1 ~ ~
X' X
n

1

X′ ෩
X
n

1 ~ ~
XX'
n

1 ~
X


X෩
j

X′ ෩
Xj
n
.
III – L’interprétation des résultats : C1 C2
3. La représentation des individus -1,23 0,093
0,306 0,505
1,934 -0,52
-1,79 -0,4
0,788 0,323
0,000 0,000
1,839 0,16
1,La meilleure
λ1 λ2
~
X j


Xj

qualité de CC1212
représentation

Contribue
le plus
dans
La C1²/5*1,82
variance
.
III – L’interprétation des résultats :
4. La qualité de représentation d’un point-individu
.
III – L’interprétation des résultats :
5. Les contributions des individus à la variance

1 ~ ~
X' X
n

1

X′ ෩
X
n

1 ~ ~
XX'
n

1 ~
X


X෩
j

X′ ෩
Xj
n
1. La représentation des variables

Interprétation 2. Le calcul des coefficients de corrélation


3. La représentation des individus

des résultats 4. La qualité de représentation d’un point-individu


5. Les contributions des individus à la variance
.
III – L’interprétation des résultats :
CONCLUSIONS

~
X j


Xj
.
III – L’interprétation des résultats :
CONCLUSIONS

Qualité de Contribution à la variance


I - Présentation des données :
représentation
II – La détermination des facteurs et des
composantes principales : Individu Axe1 Axe 2 Total Individu Axe1 Axe 2
1. Analyse de l’espace des individus

2. Analyse de l’espace des variables


1
n
~

1
~
X' X


X′ ෩
X
1 0,99 0,01 1 1 0.166 0,01
n

2 0,01 0,319
3. Equivalence des deux analyses 1
n
~ ~
XX'

1 2 0,27 0,73 1
3 0,407 0,341
~
X


X෩
j

X′ ෩
Xj
n

axe
4. La part de variance expliquée par un 3 0,93 0,07 1 4 0,35 0,199
III – L’interprétation des
4 0,95 0,05 1 5 0,068 0,131
résultats : 5 0,86 0,14 1 Total 1 1
1. La représentation des variables AVOIR L’angle le
2. Le calcul des coefficients de plus faible avec la Avoir l’individu le plus éloigné
corrélation
composante en De l’origine
3. La représentation des individus
question
4. La qualité de représentation d’un
point-individu

5. Les contributions des individus à la


variance
En résumé
Etapes de l’ACP:
1. Centrer est réduire les données X෩i
2. Construire la matrice R=
3. Déterminer les valeurs propres de telle sorte que det(R- 𝜆I)=0
4. Les k valeurs propres 𝜆k permettent de donner les vecteurs propres Uk des k
nouvelles composantes Ck avec Ck = Uk’* X෪
5. La corrélation entre les variables et les nouvelles composantes sont les
coefficients de corrélation qui mesure le cos de l’angle entre CK et X෩i
6. Le vecteur constitué par les corrélations des p variables X~ j avec la composante
principale r est égale au vecteur d’ordre r ur multiplié par λr .
En résumé
L’ACP PERMET DE MESURER
1. La part de chaque 𝜆k 𝑑𝑎𝑛𝑠 𝑙 ′ 𝑒𝑥𝑝𝑙𝑖𝑐𝑎𝑡𝑖𝑜𝑛 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 =
2. La somme des = p (nombre de variables)
3. on peut mesurer deux éléments importants dans l’analyse ACP:
• La qualité de la représentativité évaluée par

• La contribution à la variance évaluée par

Vous aimerez peut-être aussi