100% ont trouvé ce document utile (1 vote)
142 vues6 pages

Correction - Série2 ACP

Le document traite de l'analyse en composantes principales (ACP), une méthode statistique permettant de visualiser et d'interpréter des données quantitatives en révélant les relations entre variables et individus. Il explique le principe de l'ACP, la justification de l'utilisation d'une ACP réduite pour des données hétérogènes, et présente des résultats d'analyse, y compris les contributions des variables à la construction des axes principaux. Enfin, il aborde l'interprétation des cartes des variables et des individus, ainsi que la classification des banques en Tunisie selon divers indicateurs de performance.

Transféré par

Siwar Ajroudi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
142 vues6 pages

Correction - Série2 ACP

Le document traite de l'analyse en composantes principales (ACP), une méthode statistique permettant de visualiser et d'interpréter des données quantitatives en révélant les relations entre variables et individus. Il explique le principe de l'ACP, la justification de l'utilisation d'une ACP réduite pour des données hétérogènes, et présente des résultats d'analyse, y compris les contributions des variables à la construction des axes principaux. Enfin, il aborde l'interprétation des cartes des variables et des individus, ainsi que la classification des banques en Tunisie selon divers indicateurs de performance.

Transféré par

Siwar Ajroudi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Correction (série 2)

Exercice 1

1. Rappeler brièvement le principe d’une analyse en composante principale.

L’analyse en composantes principales est une méthode statistique qui a pour objectif
de présenter, sous forme graphique le maximum d’information contenue dans un
tableau de données, constitué en lignes par des individus sur lesquels sont mesurées des
variables quantitatives disposées en colonnes.
L’analyse en composantes principales est le traitement statistique de données qui
s’applique généralement dans le cadre d’une enquête ou d’une étude. Ainsi, on utilise
l’ACP pour faire apparaitre la structuration des variables, c’est-à-dire les systèmes de
relation qui existent entre elles ; leurs associations ou leurs oppositions et la répartition
des individus les uns par rapport aux autres, en relation avec les variables traitées ; les
individus qui présentent des caractéristiques communes ou antagonistes.
L’objectif de l’ACP est de projeter le nuage des individus N sur une droite, un plan
ou plus généralement un sous espace de dimension inférieur tout en préservant la
quantité maximale d’informations « préservant une inertie maximale ».
Afin de déterminer le sous espace conservant une inertie maximale, il est nécessaire
de connaitre le s.e.v de dimensions 1 de Rp qui est une droite passant par le centre de
gravité g (puisque le nuage est centré) qui maximise l’inertie du nuage projeté sur cette
droite.
2. Justifier le choix d’une ACP réduite
Puisqu’il s’agit de variables quantitatives et hétérogènes (ils n’ont pas la même unité de
mesure) on doit faire recours à une ACP sous sa version réduite (normée).

3. Sans faire de calcul, montrer que l’inertie globale est égale aux nombre de
variables. Commenter la matrice des corrélations.

Notons que l’inertie totale est égale à la somme des valeurs propres
𝑃

𝐼𝑔 = ∑ 𝜆𝑖
𝑖=1
Elle peut être obtenue aussi par 𝐼𝑔 = 𝑡𝑟(𝑀𝑉) avec 𝑡𝑟 est la trace, 𝑉 est la matrice des
variances-covariances et 𝑀 est une métrique (matrice semi-définie positive) qui permet
de définir les distances entre les points dans un espace vectoriel.
Or la métrique M peut prendre deux formes selon que les données sont homogènes ou
hétérogènes. Dans notre cas puisque les données sont hétérogènes on remplace M par la
matrice des inverses des variances 𝐷 1 . Ainsi, 𝐼𝑔 = 𝑡𝑟(𝑀𝑉) = 𝑡𝑟 (𝐷 1 𝑉) = 𝑡𝑟(𝑅) =
𝜎2 𝜎2
𝑃. Avec R est la matrice des corrélations.
D’après la matrice des corrélations on peut vérifier qu’il existe
Une forte corrélation positive entre le salaire moyen et la productivité partielle du
travail (0,943) ce qui implique que les deux variables évoluent linéairement dans le
même sens.

1
Une forte corrélation négative entre le salaire moyen et la variable exportation (-0,749)
ce qui implique que ces deux variables évoluent linéairement dans le sens inverse.

4. Donner la dimension du nuage projeté. Quelle est l’inertie absorbée par le premier
plan principal.

D’après le tableau « Total Variance Explained » on peut remarquer qu’on a retenu seulement les
deux premiers axes factoriels qui ont des valeurs propres supérieurs à 1 tout en respectant la
règle de Kaiser. Ainsi, notre nuage de points qui était au début dans un espace vectoriel de
dimension 9 sera projeté sur un sous espace de dimension 2 absorbant ainsi 76.09% de la
quantité d’information globale

5. Calculer les contributions des variables : IDE, qualif et R&D à la construction des
deux axes.
La contribution d’une variale Xj à la construction d’un axe Ck est donnée par :

( )
Ctr C , X j =
k
(
r2 Ck , X j )
k
[Link], la contribution de la variable IDE à la construction de l’axe 1 est donnée par : [(-
0.756)2/4.553]*100=12.55%.
La contribution de la même variable à la construction de l’axe 2 est donnée par :[(
0.571)2/2.386]*100=13.66%.

7. Commenter la carte des variables et la carte des individus.

(Exercice 4)
Interprétation de la matrice des corrélations
Rappelons que l’objectif du calcul des corrélations est l’identification des relations
linaires entre les variables du tableau des données initiales.
D’après la matrice des corrélations on peut vérifier qu’il existe plusieurs fortes
corrélations entre les variables prises deux à deux. A titre d’exemples, on peut vérifier qu’il
existe de fortes corrélations positives entre la variable POPUL et les variables NBENTR,
NBBREV et CHOM de l’ordre de 0,951 ; 0.898 et 0.821 respectivement. Ce qui implique
l’existence de relations linéaires entre la variable POPUL et les trois autres variables qui
évoluent dans le même sens puisque les corrélations sont positives.
Il existe aussi une corrélation moyenne négative entre la variable TELEPH et la variable
NBBREV (-0.557) ce qui témoigne aussi l’existence d’une relation linéaire entre ces deux
variables qui évoluent dans le sens opposé.
Interprétation de la carte des variables
L’interprétation de la carte des variables (appelé aussi diagramme des composantes) se
fait selon les coordonnées (corrélations) des variables avec les deux axes (fournies dans le
tableau : matrice des composantes) ainsi que la contribution de chaque variable à la
construction de chaque axe.
La contribution d’une variale Xj à la construction d’un axe Ck est donnée par :

2
( )
Ctr C , X j =
k
(
r2 Ck , X j )
k
Ainsi, la contribution de la variable POPUL à la construction de l’axe 1 est donnée par :
[(0.956)2/4.092]*100=22.33%.
La contribution de la même variable à la construction de l’axe 2 est donnée par :[(-
0.251)2/1.453]*100=4.34%.
Les résultats de calcul des différentes contributions sont donnés dans le tableau suivant :

Contributions (en %)
Axe1 Axe2
NBBREV 22,33 4,34
NBENTR 22,06 2,25
POPUL 21,87 0,04
CHOM 20,59 0,33
SUPERF 9,49 20,29
TACT 0,43 38,1
TELEPH 3,24 34,69

Toutefois, d’après le calcul des contributions on peut bien remarquer que seulement les
variables NBBREV, NBENTR, POPUL, CHOM contribuent à la construction de l’axe 1.
Ainsi, on peut considérer l’axe 1 comme indicateur de ces quatre variables. Par ailleurs ces
quatre variables sont corrélées positivement avec l’axe 1. Une région ayant une
coordonnée élevée sur cet axe est une région caractérisée par des niveaux élevés de ces
quatre variables et inversement. De même on peut remarquer que seulement les variables
SUPERF, TACT et TELEPH contribuent à la construction de l’axe 2. On peut considérer
alors l’axe 2 comme étant indicateur de ces trois variables. Puisque ces variables sont
corrélés positivement avec l’axe 2 alors une région ayant une coordonnée élevée sur cet
axe est caractérisée par des niveaux élevés de ces trois variables.
Interprétation de la carte des individus
D’apprs la carte des variables on peut remarquer que la région R-Alpe a la coordonnée la
plus éleées sur l’axe 1 donc elle est caractérisée par NBBREV, NBENTR, POPUL et
CHOM les plus élevés. En revanche, les régions Basse-No, Auvergne, Alsace, Limousin et
Hte-Norm sont caractérisées par les niveaux les plus faibles en termes de NBBREV,
NBENTR, POPUL et CHOM. Ces 5 régions ont donc des caractéristiques communes (sont
homogènes) en termes de ces 4 variables.
On peut également remarquer que la région Aquitain a la coordonnée la plus élevée sur
l’axe 2. Alors cette région est caractérisée par des niveaux élevés des variables SUPERF,
TACT et TELEPH. Cette région partage les mêmes caractéristiques en termes de ces 3
variables avec Rh-Alpe et Bourgogne. En revanche, les régions Nord-Pdc, Lang-Ro,
Lorraine et Picardie sont caractérisées par des niveaux faibles de SUPERF, TACT et
TELEPH.

3
Remarque : l’interpretation n’est, sans doute, pas exhaustive. Néanmoins, vous pouvez
encore l’enrichire. Pour la simplicité, j’ai aussi garder les mêmes abréviations des régions
ainsi que celles des variables.

Enfin, à vous de déterminer la région la plus attractive pour l’entreprise.

(Exercice 5)

Le tableau des données (Tableau 1) retrace la distribution de 12 banques en Tunisie


selon 8 variables (caractéristiques ou encore 8 indicateurs de performances). L'objectif de
l'exercice est de classer ces banques selon ces indicateurs. La meilleure façon de le faire
c'est de passer à une représentation graphique. Or cette représentation se traduit par la
représentation du nuage des individus sur un espace vectoriel de dimension 8 (chaque
variable joue le rôle d'un axe) et on se trouve ainsi dans l'impossibilité d'interpréter un tel
graphique par un simple examen visuel.
Ainsi, l'objectif est de simplifier autant que faire se peut cette représentation. L'une des
techniques qui peut être utilisée est l'analyse en composante principale (ACP) puisque les
données sont quantitatives. Nous utilisons aussi sa version réduite (ACP réduite) car les
données sont hétérogènes (ils n'ont pas la même unité de mesure)
question1. Définition, objectif et principe de l'ACP
L’analyse en composantes principales est une méthode statistique qui a pour objectif de
présenter, sous forme graphique le maximum d’informations contenues dans un tableau de
données, constitué en lignes par des individus sur lesquels sont mesurées des variables
quantitatives disposées en colonnes.
L’analyse en composantes principales est le traitement statistique de données qui
s’applique généralement dans le cadre d’une enquête ou d’une étude. Ainsi, on utilise
l’ACP pour faire apparaitre la structuration des variables, c’est-à-dire les systèmes de
relations qui existent entre elles (leurs associations ou leurs oppositions) et la répartition
des individus les uns par rapport aux autres, en relation avec les variables traitées (les
individus qui présentent des caractéristiques communes ou antagonistes).
Il existe deux types d'ACP; ACP simple et ACP réduite. La première est utilisée lorsque
les données sont homogènes (ont la même unité de mesure) et la deuxième est utilisée
lorsque les données sont hétérogènes.
Dans notre exemple on peut bien remarquer que les données n'ont pas toutes les mêmes
unités de mesures ce qui justifie le recours à une ACP réduite.
question2
Remarque : Notons que l’objectif est de détecter l’existence de relations de type
linéaires entre les variables du tableau de données initiales. Ceci se fait par le calcul des
coefficients de corrélations linéaires entre chaque couple de variables. Ces coefficients de
corrélations sont donnés dans le Tableau 2. On se limite généralement à l’interprétation des
fortes corrélations c.a.d proches de 1 ou de -1 (positives et négatives).
On peut remarquer que la variable TAC est fortement corrélée positivement avec les
variables RCD CEC RNI DEC et AL ce qui implique qu'il existe une relation linéaire entre
la variable RNI et les autres variables qui évoluent dans le même sens puisque les
coefficients sont positifs.

4
La même variables est fortement corrélée négativement avec la variable CN (-0.852) ce
qui implique qu'il existe une relation linéaire entre ces deux variables qui évoluent dans le
sens opposé puisque le coefficient est négatif.
L'existence de ces relations linéaires est une condition nécessaire à la réduction du
nombre d'axes.
question 3
Remarque : une fois qu’on a pu identifier ces types de relations linéaires entre les
variables, la démarche consiste à déterminer les nouvelles composantes principales
(nouveaux axes factoriels). Par la suite il faut retenir seulement les composantes qui ont les
quantités d’informations (inertie) les plus élevées. Notons que la quantité d’information
d’une composante est mesurée par la valeur propre associée. Plusieurs règles peuvent être
envisagées :
- La règle de kaiser : on retient seulement les axes qui ont des valeurs propres supérieurs
à 1.
- On retient seulement les axes qui ont des valeurs propres supérieurs à 1/P (P est le
nombre de variables égal à 8 dans notre exemple).
Ces valeurs propres sont données dans le tableau (variance totale expliquée).
La première colonne du tableau indique qu’il existe seulement deux valeurs propres
supérieures à 1 (5,544 et 1.026). Ainsi, selon la règle de Kaiser nous retenons seulement
deux axes. On peut dire alors que nous allons projeter notre nuage de points qui était au
début dans un espace vectoriel de dimension 8 sur un sous espace vectoriel de dimension 2
(premier plan principal) tout en conservant 82.13% de la quantité d'information c.a.d de
l'inertie totale.
Question 4
L’interprétation de la carte des variables (appelé aussi diagramme des composantes) se
fait selon les coordonnées (corrélations) des variables avec les deux axes (fournies dans le
tableau4 : matrice des composantes) ainsi que la contribution de chaque variable à la
construction de chaque axe.
D’une manière générale, la contribution d’une variable à la construction de la
composante principale Ck est donnée par l’expression suivante :

( )
Ctr C , X j =
k
(
r2 Ck , X j )
k

Par exemple la valeur 16.18% indique la contribution de la variable TAC à la


construction de l’axe 1 et la valeur 7.92% sa contribution à la construction de l’axe 2.

Calcul des contributions des variables à la construction des axes (en %)


Variables axe 1 axe 2
TAC 16,18 7,92
RNI 8,27 21,81
RCD 14,32 0,88
CEC 11,57 27,69
DEC 10,31 0,69

5
AL 17,29 0,4
RCB 6,15 37,83
CN 15,94 2,78

question 5
- Interprétation de la carte des variables
D’après le tableau des composantes, le calcul des contributions ainsi que la carte des
variables on peut conclure que les variables RCB et CEC et RNI sont fortement corrélées
avec l'axe2 (l'axe vertical). En plus ces deux variables sont les seules qui contribuent à la
construction de l'axe 2. On peut dire alors que l'axe 2 est un indicateur de ces 3 variables.
Ainsi, une banque ayant une coordonnée élevée sur l'axe 2 est une banque caractérisée par
des niveaux élevés de ces 3 variables et inversement.
Les autres variables sont fortement corrélés avec l'axe 1 (l'axe horizontal) et sont les
seuls variables qui contribuent à la construction de cet axe. On peut considérer alors l'axe 1
comme étant indicateur de l'ensemble de ces variables. Ainsi, une banque ayant une
coordonnée élevée sur l'axe 1 est une banque caractérisée par un niveau de CN faible et des
niveaux élevés des autres 5 variables et inversement.
- Interprétation de la carte des banques
D’après la carte des banques ont peut vérifier que :
• L’UIB a la coordonnée la plus élevée sur l’axe 2 (l’axe vertical). Ainsi l’UIB est
caractérisée par le niveau de Créances sur Etablissements de Crédit le plus élevé et le
Ratio de Capitalisation Boursière le plus élevé. En revanche son Revenus Nets
d'Intérêts est le plus faible.
• La TQB et BIAT ont les coordonnées les plus faibles sur l’axe 2. Ces deux banques
ont des caractéristiques communes caractérisées par des Revenus Nets d'Intérêts
élevés et Créances sur Etablissements de Crédit et des Ratios de Capitalisation
Boursière faibles.
• L’UBCI et Best Banque ont les coordonnées les plus élevées sur l’axe 1 (l’axe
horizontal). Ces deux banques sont caractérisées par les niveaux les plus levés en
termes de Total Actif (TAC), Réserves pour Créances Douteuses (RCD), Dettes
envers les Etablissements de Crédit (DEC) et Actifs Liquide (AL). En revanche elles
ont les Crédits Nets les plus faibles. La situation tout à fait le contraire pour la BS,
BNA, BT et Amen Banque. On peut considérer que ces deux groupes sont hétérogènes
(présentent des caractéristiques antagonistes) par rapport l’axe 1.

Vous aimerez peut-être aussi