0% ont trouvé ce document utile (0 vote)

159 vues20 pages

Analyse en Composante Principales D'un Tableau de Distributions Macroéconomiques

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

159 vues20 pages

Analyse en Composante Principales D'un Tableau de Distributions Macroéconomiques

Transféré par

HICHAM FADLI

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Analyse en composante principales d’un tableau de

distributions macroéconomiques.
Sun Makosso-Kallyth
MDC Pain Centre, McMaster University 1280 Main Street West
Hamilton, Ontario L8S 4K1 Canada.
[email protected]

Résumé. Cet article présente l’application de deux extensions de l’analyse en composantes

principales à un tableau de distributions macroéconomiques. Les méthodes présentées
s’inscrivent dans le cadre de l’analyse des données symbo-liques. Elles étendent l’analyse en
composantes principales aux variables sym-boliques de type histogramme. Dans la première
méthode on détermine les moyen-nes des histogrammes, on effectue ensuite une ACP
classique du tableau des moyennes et on projette en éléments supplémentaires les
hypercubes obtenus à partir de la transformation des histogrammes en intervalles. En outre,
pour amé-liorer le codage des modalités des variables de type histogramme, on présente un
nouveau codage basé sur les scores de Ridit. Dans la seconde méthode en revanche, on
détermine les quantiles, on définit par la suite une mesure de cor-rélation d’histogrammes à
partir des quantiles qui se correspondent. On procède ensuite par la détermination des
vecteurs propres de la matrice de corrélation et la projection des quantiles en éléments
supplémentaires. Nous appliquons les deux méthodes à des données macroéconomiques et
montrons leur intérêt en analyse des données exploratoire.
Mots clés : variable symbolique de type histogramme, analyse en composantes principales,
quantiles, scores de Ridit.

1 Introduction

L’objet de cet article est celui de comparer l’application de deux extensions de l’analyse en
composantes principales (ACP) à un tableau de distributions macroéconomiques. L’objet de
l’ACP d’un tableau de distributions dans un tel contexte est celui d’expliquer les relations
entre des variables qui décrivent de grands agrégats économiques. On peut par exemple s’inté-
resser à la description du profil démographique et environemental (niveaux d’émission de Gaz
à effet de serre, nombre d’enfants par femme, etc.) de certaines zones géographiques telles que
l’Afrique, l’Amérique du Nord et l’Europe. Dans une telle optique, si on souhaite comprendre
les disparités socioéconomiques entre ces zones géographiques, on peut recourir à l’analyse
de données symboliques. En effet, les récentes contributions en analyse des données symbo-
liques ont permis d’énormes avancées en analyse des données exploratoires. Suite aux travaux
de (Diday (1988) et Diday (1989)), l’analyse des données symboliques (ADS) a connu d’im-
portants bouleversements au point de devenir une discipline à part entière en apprentissage

© Revue Modulad 2018 55 Numéro 45

Analyse en composante principales d’un tableau de distributions macroéconomiques.

TABLE 1 – Exemple de variable symbolique de type histogramme

Region PIB par habitant Taux mortalité
Modalité ξj ≤ 1 k$ ]1, 20] > 20 ≤ 0.10 > 0.10
Afrique 0.340 0.660 0.000 0.245 0.755
Alena 0.000 0.333 0.667 1.000 0.000
AsieOrientale 0.067 0.801 0.133 1.000 0.000
Europe 0.000 0.322 0.677 0.742 0.258

statistique (Cf Verde et Diday 2014). Les méthodes développées dans le cadre de l’ADS (voir
Bock et Diday (2000), Billard et Diday (2006), Diday et Noirhomme-Fraiture (2008)) sont
complémentaires à l’analyse de données classiques et elles se prêtent bien aux données com-
plexes ayant plusieurs niveaux d’analyse. Dans le cas où l’on disposerait par exemple d’un
tableau de données sur la situation macroéconomique de pays (unité de base), si on s’intéresse
à la situation macroéconomique des espaces géographiques dont ces pays font partie (Union
Européenne , Union Afrique, ALENA, etc.), en définissant comme nouvelle unité d’analyse la
zone géographique, il est par exemple possible de définir (pour chaque variable) la distribution
empirique de chaque zone géographique et d’appliquer par la suite une analyse multivariée
de ces distributions. L’on peut par exemple recourir à l’analyse en composantes principales
de variables symboliques de type histogramme. Plusieurs approches ont d’ailleurs été propo-
sées à cet égard (Nagabhushan et Kumar (2007), Rodriguez et al. (2000), Makosso-Kallyth
et Diday (2012), Verde et al. (2015), Ichino (2011), Diday (2013), Makosso-Kallyth (2015)).
Dans cet article nous appliquons et comparons deux extensions ou adaptations de l’ACP aux
variables symboliques de type histogramme. Pour ce faire, nous présentons premièrement la
théorie inhérente à ces approches. Nous appliquons ensuite ces deux approches à un tableau de
distributions macroéconomiques et comparons en dernier lieu ces deux méthodes.

2 Approache basée sur l’ACP des barycentres

Dans cette section, nous présentons l’approche proposée par Makosso-Kallyth et Diday (2012).
Elle considère la moyenne (moment d’ordre 1) comme le principal élément caractéristique
d’une distribution. Cette approche effectue premièrement le codage des modalités des va-
riables. Elle determine ensuite les moyennes des variables de type histogramme et effectue
une ACP de ces moyennes. Pour la représentation de la dispersion des variables compte tenu
de leur nature symbolique, l’approche proposée par Makosso-Kallyth et Diday (2012) trans-
forme les histogrammes en intervalles via l’inegalité de Tchebychev. Ensuite, elle projette en
éléments supplémentaires les hypercubes induits par les intervalles sur les axes principaux de
l’ACP des moyennes.

© Revue Modulad 2018 56 Numéro 45

2.1 Notations

Soient n le nombre d’individus, p celui des variables, et mj celui des modalités d’une variable
symbolique de type histogramme Yj ; Yj est telle que Yj = {ξj , Hij }. On suppose également
que : pour i = 1, . . . , n ; j = 1, . . . , p et k = 1, . . . , mj ; n représente le nombre d’individus ;
p celui des variables et mj celui des modalités d’une variable de type histogramme Yj ; Pour
une valeur donnée de j, une variable symbolique de type histogramme Yj de façon générale
(1) (mj )
est telle que Yj = {ξj ; H.j } où ξj = ξj , . . . , ξj est le vecteur contenant les modalités
de la variable Yj , H.j est le vecteur contenant les fréquences relatives Hij . Les Hij (k) vérifient
Pmj (mj )
la relation k=1 Hij = 1. Dans la table 1, on a par exemple Y1 (la variable PIB) qui est
telle que Y1 = {ξ1 ; H.1 } avec ξ1 = (] − ∞, 1]; ]1, 20]; ]20; +∞]) et
 
H11
 H21 
H.1 = 
 H31 


H41

avec H11 = (0.340, 0.660, 0), H21 = (0, 0.333, 0.667), H31 = (0.0067, 0.801, 0.133), H41 =
(0, 0.322, 0.677).

2.2 Codage des modalité des variables de type histogramme.

L’objet du codage des modalités des variables est celui d’assigner des valeurs numériques ap-
pelées scores aux modalités des variables. Pour ce faire, Makosso-Kallyth et Diday (2012)
proposent deux types de codage intitulés codage paramétrique et codage non paramétrique.
Nous présentons également un codage basé sur les scores de Ridit bruts, standardisés et nor-
malisés.

2.2.1 Codage paramétrique des modalités des variables.

Soit Dj = (β1j , β2j ) le domaine contenant l’ensemble des valeurs possibles prises par les
modalités de la variable Yj . Dans la table 1 la plus petite valeur possible prise par la modalité
PIB (Y1 ) est β11 = 0. En revanche, β21 = +∞ car β21 la valeur maximale d’une modalité du
PIB n’est majorée par aucune valeur. Dans la table 1 on a par exemple Y11 = {ξ1 , H11 } avec
ξ1 = {] − ∞, 1], ]1, 20], ]20, +∞[} ; H11 = (0.340; 0.660; 0.000). Ensuite, Makosso-Kallyth
et Diday (2012) procède comme suit (voir aussi Makosso-Kallyth et Diday (2010)) :
1. Pour tout j fixé, δj = inf kj =1,...,mj Lkj , Lkj étant la longueur des intervalles des
(k ) (k )
modalités ξj j . Si certaines modalités ξj j sont de longueur infinie, i.e., si elles sont de
la forme I =] − ∞, aj ] ou de la forme J =]bj , +∞[,
alors on remplace I par I 0 =]ej , aj ] où

β1j si aj − δj < β1j
ej = .
aj − δj sinon

© Revue Modulad 2018 57 Numéro 45

Analyse en composante principales d’un tableau de distributions macroéconomiques.

De même on remplace J par J 0 =]bj , hj ] avec

β2j si bj + δj > β2j
h= .
bj + δj sinon
(2)
Dans la table 1 par exemple, la modalité ξ1 =]1, 20] a la plus petite longueur L21 = 19.
0
(1) (1) (3)
Par conséquent on remplace ξ1 par ξ1 =] max(1 − 19, 0), 1] =]0, 1] et ξ1 par
0
(3)
ξ1 =]20, min(20 + 19, +∞)] =]20, 39].

2. Si les modalités des différentes variables de type histogramme en jeu n’ont pas la même
unité de mesure, on remplace chaque intervalle ]a0j , b0j ] par un intervalle ajusté de la
forme ]a0j /(b0j − a0j ); b0j /(b0j − a0j )].
Au niveau de l’affectation des scores des modalités, le codage paramétrique assigne à une mo-
(1) (m) (kj)
dalité un vecteur de scores sj = (sj , . . . , sj ) où sj est égal au centre des intervalles
ajustées pour kj = 1, . . . , mj .

Le codage paramétrique a cependant quelques limites. Premièrement, son application requiert

une connaissance parfaite du domaine macroéconomique. Ensuite, le choix des centres des
classes des intervalles de longueur extrême ou infinie ne devrait se faire de façon arbitraire. Au
vu de ces limites, il est préférable d’appliquer d’autres codages alternatifs tel que le codage
non paramétrique.

2.2.2 Codage non paramétrique des modalités des variables.

Le codage non paramétrique utilise comme scores des modalités, le rang qui leur est associé.
Si on se refère à la table 1 par exemple, les scores des modalités des classes seront
(1) (2) (mj)
sj = 1, sj = 2, . . . , sj = mj .
(1) (2) (3)
Dans le cas la variable PIB, on a comme scores : s1 = 1, s1 = 2, s1 = 3. Pour la variable
(1) (2)
taux de mortalité, on a par contre s2 = 1, s2 = 2.

Le codage non paramétrique est d’un usage simple. Il est adapté à des modalités ordonnées
(k)
équidistantes. Cependant, si pour une variable Yj les longueurs des modalités ξj ne sont pas
égales, ou si les écarts entre deux modalités consécutives sont distincts, le codage non para-
métrique pourrait ne pas s’avérer réaliste. Dans le cas d’une variable telle que le statut social
(1)
d’une personne seule, si on suppose que les modalités de cette variable sont ξj =classe pauvre
(2)
(salaire mensuel net en euros =< 729), ξj = classe populaire (salaire mensuel ∈ ]729, 1183]),
(3) (4)
ξj =classe moyenne (salaire mensuel ∈ ]1183, 2177]), ξj = classe aisée (salaire mensuel
(5) 1
∈ [2177, 2917[, ξj = Riche (salaire mensuel >=2917), l’écart entre une personne riche
1 cf. http ://www.lefigaro.fr/social/2014/04/16/09010-20140416ARTFIG00110-tes-vous-riche-pauvre-ou-
appartenez-vous-a-la-classe-moyenne.php

© Revue Modulad 2018 58 Numéro 45

et une personne de la classe aisée n’est pas forcément similaire à l’écart entre une personne
pauvre et une personne de la classe populaire. L’utilisation du codage non paramétrique est
dans ce cas inapproprié. On présente dans la section suivante un codage basé sur l’utilisation
des scores de Ridit.

2.2.3 Codage à partir des scores de Ridit.

Les scores de Ridit ont été introduits par Bross (1958). Ils ont à la base une interprétation
probabiliste (probabilité qu’une variable aléatoire soit inférieure à une valeur de référence).
En analyse de données qualitative (ou ’catégorique’), ils sont également utilisés comme scores
des modalités de variables ordinales (cf. Agresti (2002), Mantel (1979), Donaldson (1998)). Si
(1) (2) (m)
on considère par exemple un vecteur de fréquences relatives Hij = (Hij , Hij , . . . , Hij ), les
socres de Ridit rk sont tels que :
(k)
X (m)
rk = 0.5Hij + Hij . (1)
m<k

Pour adapter l’application des scores de Ridit aux modalités des variablesPde type histogramme,
n
on propose premièrement la détermination du vecteur moyen H.j = n1 i=1 Hij . Ensuite, les
scores de Ridit bruts des variables de type histogrammes sont définis de la manière suivante :
(k) (k) X (mj )
sj = 0.5H.j + H.j . (2)
mj <k

Dans le cas de la table 1 par exemple, les vecteurs moyens H.1 et H.2 associé a cette table
sont respectivement H.1 = (0.102, 0.529, 0.369) et H.2 = (0.747, 0.253). Les scores de Ridit
(1) (2) (3)
brutes quant à eux sont s1 = 0.051, s1 = 0.102 + 0.529 2 = 0.366, s1 = 0.102 + 0.529 +
0.369 (1) (2)
2 = 0.816 pour la variable PIB, et s2 = 0.373, s2 = 0.873 pour le taux de mortalité.
Pour tenir compte des différences entre variables, nous définissons également les scores de
Ridit standardisés
(k)
sj − µsj
s0j (k) = , (3)
σsj
où µsj et σsj représentent respectivement les moyennes et variances empiriques du vecteur des
(1) (mj ) 0(1) 0(2)
scores bruts sj = (sj , . . . , sj ). Les scores de Ridit standardisés sont s1 = −0.937, s1 =
0(3) 0(1)
−0.116, s1 = 1.053 pour la variable PIB. De même, pour le taux de mortalité on a s2 =
0(2)
−0.707 et s2 = 0.707. La standardisation a néanmoins tendance à assigner des scores élevés
en valeurs absolues aux modalités extrêmes et des valeurs proche de zéros aux modalités in-
termédiaires. Il est également possible de définir des scores de Ridit normalisés de sorte que :
(k)
sj
s00j (k) = Pmj (k)
. (4)
k=1 sj

© Revue Modulad 2018 59 Numéro 45

Analyse en composante principales d’un tableau de distributions macroéconomiques.

2.3 ACP des centres et representation des individus.

Après le codage des modalités des variables, Makosso-Kallyth et Diday (2012) déterminent les
moyennes ou barycentres gij de chaque histogramme Yij . Ces valeurs moyennes sont telles
que :
mj
(kj) (k )
X
gij = sj Hij j . (5)
kj =1

Une ACP classique du tableau des moyennes g = (gij )i=1,...,n ; j=1,...,p est ensuite appli-
quée. Soient uα , α = 1, . . . , p les p axes principaux de l’ACP du tableau des moyennes g.
Pour représenter les individus compte tenu de leur nature symbolique, Makosso-Kallyth et Di-
day (2012) transforment les histogrammes en intervalles via l’inégalité de Tchebytchev. Ainsi,
pour toute variable aleatoire Xj de moyenne empirique X j et d’écart type empirique σX j
et pour tout nombre t ≥ 0, la proportion d’information comprise entre l’intervalle [Xj −
tσ(X j ), X j + tσ(Xj )] est supérieure ou égale à 1 − t12 . Autrement dit, si P est une mesure de
probabilité on a :
1
P Xj ∈ Xj − tσXj , Xj + tσXj ≥ 1 − 2 (6)
t

Ainsi, pour une valeur donnée de t, Makosso-Kallyth et Diday (2012) transforment chaque
fréquence Hij en intervalle [cij , dij ] via l’inegalité de Tchebychev. Ensuite, Makosso-Kallyth
et Diday (2012) construisent les hypercubes associés aux concepts ou individus symboliques.
Si on suppose que le nombre de variables est égale à p, chaque hypercube a dans ce cas 2p
sommets. Soit Mi l’ hypercube associée au ième concept. Pour p = 2 par exemple, on associe
au concept i l’intervalle ([ai1 , bi1 ], [ai2 , bi2 ]). L’hypercube Mi est dans ce cas

 
ai1 ai2
 ai1 bi2 
Mi = 
 bi1
.
ai2 
bi1 bi2

Makosso-Kallyth et Diday (2012) projettent chaque hypercube Mi ( matrice d’ordre 2p × p)

sur uα le αème axe factoriel et representent ainsi en 2D dimension les individus sous la forme
de rectangle (à partir des min et des max des projection des hypercubes).

L’approche proposée par Makosso-Kallyth et Diday (2012) se focalise essentiellement sur la

moyenne des histogrammes. Dans le cas de distributions asymétriques, il est préférable de re-
courir à d’autres éléments caractéristiques des distributions tels que les quantiles par exemple.
Par ailleurs, le choix du codage a une incidence sur les résultats finaux. C’est dans cette optique
que nous présentons dans la section suivante une approche basée sur la corrélation moyenne
des quantiles qui se correspondent.

© Revue Modulad 2018 60 Numéro 45

3 Approche basée sur corrélation moyenne des quantiles qui
se correspondent.
L’approche basée sur la corrélation des quantiles qui se correspondent (voir Makosso-Kallyth
(2015)) nécessite premièrement le choix de m le nombre commun de quantiles de chaque
variable de type histogramme. C’estainsi que l’on obtient
Q la table d’ordre (n × m) × p de
(1) (m) (k)
sorte que Q = (Q1 , . . . , Qp ), Qj = Qj , . . . , Qj et Qj est la n × p table de quantiles.
La correlation entre deux variables symboliques de type histogramme est déterminée par la
correlation moyenne des quantiles qui se correspondent via la relation ci-dessous

exp(2ZY1 ,Y2 ,Q(1) ,...,Q(m) ) − 1

RY∗ (1) (m) = j j
. (7)
1 ,Y2 ,Qj ,...,Qj exp(2ZY1 ,Y2 ,Q(1) ,...,Q(m) ) + 1
j j

où
m
1 X
ZY1 ,Y2 ,Q(1) ,...,Q(m) = ZY (k) ,Y (k) ,Q(1) ,...,Q(m) . (8)
j j m 1 2 j j
k=1
et ZY (k) ,Y (k) ,Q(1) ,...,Q(m) = arctanh(RY (k) ,Y (k) ,Q(1) ,...,Q(m) ). (9)
1 2 j j 1 2 j j

où RY (k) ,Y (k) ,Q(1) ,...,Q(m) représente la corrélation de Pearson des quantiles qui se corres-
1 2 j j
pondent. Pour tout RY (k) ,Y (k) ,Q(1) ,...,Q(m) = 1 (resp. -1), on supposera que R∗ (1) (m) =
1 2 j j Y1 ,Y2 ,Qj ,...,Qj
1 (resp. -1) . La relation (7) induit une matrice de corrélation R∗ (1) (m) . Les vecteurs
Qj ,...,Qj
propres uα de cette matrice de corrélation font office d’axes principaux. Pour la représenta-
tion des concepts sur les axes factoriels, on projette les quantiles Q(1) . . . Q(m) sur les axes
factoriels uα et on représente les rectangles ou les enveloppes convexes des quantiles projettés.
De même, pour les cartes de corrélation, on détermine la corrélation au sens de (7) entre les
Q(1) . . . Q(m) et leur projection sur les axes factoriels.

4 Application.
On applique les deux méthodes précédemment décrites à un jeu de données de la Banque Mondiale. Ces
données portent sur 10 variables (voir annexe). Il s’agit du PIB par habitant, du niveau de la sous ali-
mentation (Sous), du niveau de la consommation d’électricité en Kwh par personne (Elec), des émissions
de gaz dans l’atmosphère (gaz), du niveau de la population (Population), du niveau d’investissement (In-
vest), de l’Indice de développement humain IDH, du nombre moyen d’enfants par femme (Fecondite),
du nombre de téléphones portables par personne (Telephone), de la croissance démographique (CROIS),
du taux de mortalité (Mortalite), des dépenses en matière de santé Sante (cf. table 2 et les tables en an-
nexe). Les informations sont disponibles par continent sous la forme d’histogrammes à cinq modalités.
Les continents représentent les individus symboliques.

© Revue Modulad 2018 61 Numéro 45

Analyse en composante principales d’un tableau de distributions macroéconomiques.

4.1 Application de l’approche basée sur l’ACP des barycentres.

4.1.1 Utilisation du codage non paramétrique.

Nous appliquons premièrement la méthode de Makosso-Kallyth et Diday (2012) sans recourir à la trans-
formation angulaire dans le prétraitement des variables. Nous utilisons le codage non paramétrique. Les
figures 1 et 2 contiennent le plan des projections obtenus à partir des hypercubes et la carte des corré-
lations au sens de Pearson entre les moyennes des variables g.j , j = 1, . . . , 10 et leurs composantes
principales. Dans la figure 1, les individus sont représentés sous la forme de rectangles. Cela permet de
mettre en évidence leur dispersion. La dispersion dont il est question ici correspond à la variabilité de
chaque concept par rapport à la valeur moyenne de chaque variable. La variabilité des deux premiers
axes factoriels est respectivement de 66.79% and 16.76%. Le premier axe du plan de projection met en
évidence l’opposition entre d’une part les régions développées (Europe et Aléna) et l’autre les régions
sous-développées (Afrique). L’axe 1 met également en évidence une sorte de troisième groupe constitué
par l’Asie Orientale, les états de l’ex-URSS, l’amérique du sud et du centre et le proche et moyen Orient.
Quant au deuxième axe factoriel, il oppose d’une part les pays de l’ex union sovietique et de l’autre ceux
proche orient.

TABLE 2 – Variables sélectionnées.

Variables symboliques Catégorie
PIB par habitant$ < 1 k$, [1k$ ;5k$] ; [5k$ ;10k$] ; [10k$,20k$] ; > 20k$
% de la sous alimentation < 3% ; [3%, 10 %] ; [10 % ;25 %] ; [25% ;35 %] ; > 35%
Croissance de la Population$ < 0.0% ; [0 ;1] ; [1 ;2] ;[2 ; 4] ; >= 4
IDH (indice de développement Humain) < 0.5 ; [0.5 ; 0.6] ; [0.6 ;0.7] ; [0.7 ;0.8] ; >= 0.8
Taux de mortalité < 0.5% ; [0.5% ; 1%] ; [1% ;1.5%] ; [1.5% ;2.0%] ; >= 2.0%
Population en Millions < 1 M ; [1 ; 5] M ; [5 ;10] M ; [10 ;100] M ; >= 100 M
Electricité kwh/pers < 500 ; [500 ; 1000] ; [1000 ;5000] ; [5000 ;15000] ; >= 15000
GAZ kt /hab < 1 ; [1 ; 2] ; [2 ;5] ; [5 ;10] ; >= 10
Fecondité <2 ; [2,3[ ; [3 ; 5[ ; [5 ;6[ ; ≥ 6 ;
Depense Santé en % du PIB < 3% ; [3% ; 4%] ; [4% ;6%] ; [6% ;8%] ; >= 8%

TABLE 3 – Corrélation entre les moyennes des variables et les 5 premières composantes
prin-cipales.
Variable Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
PIB -0.73 0.55 -0.20 -0.30 -0.13
SousAl 0.96 -0.19 0.18 -0.06 -0.04
Electricite -0.88 0.07 -0.45 0.05 -0.02
GAZEmission -0.89 -0.14 -0.16 -0.37 -0.04
Population 0.23 -0.20 -0.17 0.70 -0.60
Fecondite 0.83 -0.33 -0.34 -0.19 -0.14
CroissPopulat 0.10 -0.93 -0.33 -0.01 0.07
IDH 0.19 0.06 0.92 -0.29 0.18
TauMortalite 0.88 0.35 -0.30 0.01 0.13
DepSante -0.82 -0.37 0.01 0.05 0.36

© Revue Modulad 2018 62 Numéro 45

Factorial Plan

Afrique
●
20
10

Europe
●
ExURSS
●
Alena
●
Axe n°2 (16.76%)

●
●
AmSudCentre
●
0

●
AsieOrientale
●

ProchMoyOrient
● ●●
−10
−20

●
●

−40 −20 0 20 40 60 80

Axe n°1 (66.79%)

FIGURE 1 – Plan des projections de l’ACP des moyennes des variables.

Correlation circle.
1.0

● PIB
0.5
Composante n°2 (16.76%)

● TauMortalite

● Electricite ● IDH
0.0

● GAZEmission
● Population ● SousAl
● Fecondite
● DepSante
−0.5

● CroissPopulat
−1.0

−2 −1 0 1 2

Composante n°1 (66.79%)

F IG . 2 – Carte des Corrélations de l’ACP des moyennes des variables.

La figure 2 représente la carte des corrélations entre les moyennes des variables et leurs composantes
principales. La table 3 donne quelques détails à cet égard. Les valeurs moyennes des variables Sous ali-
mentation, Taux de mortalité, Fécondité sont positivement corrélées à la première composante principale.
Les valeurs moyennes de PIB, Électricité, Émission de GAZ et dépense santé sont en revanche négative-
ment corrélées à la première composante principale. Les figures 1 et 2 mettent en évidence le fait qu’en
Afrique, une minorité de pays ont un taux de mortalité, une croissance démographie, un niveau de la sous
alimentation faibles. Pour le taux de mortalité, on note par exemple le fait que 38.8% de pays de la zone
Afrique ont un taux de mortalité >= 1.5%. Dans la zone Alena, 0% de pays ont un taux de mortalité
supérieur à 1.5%.
De même, on est aussi forcé de constater qu’en Europe et dans la zone Alena, la majorité des pays ont un
niveau élevé des dépenses en matière de santé, PIB, IDH, émission de GAZ, consommation d’électricité.
L’Europe et l’ALENA sont par exemple les deux zones géographiques dans lesquelles plus de 66% de
pays ont un PIB par habitant supérieur à 20000k$. On constate aussi que dans les états de l’ex-URSS,
la plupart des états ont une croissance démographique faible. En effet, 60% des pays de l’ex-URSS ont
une croissance de la population négative. Enfin, la visualisation des régions sous la forme de rectangles
permet de constater par exemple qu’en Afrique, les différences entre pays en termes de variables ma-
croéconomique sont très importantes. Si on considère le taux de mortalité en zone Afrique par exemple,

© Revue Modulad 2018 63 Numéro 45

Analyse en composante principales d’un tableau de distributions macroéconomiques.

6.1% de pays ont un taux de mortalité inférieur à 0.5%, 18.4% de pays ont un taux de mortalité compris
entre 0.5% et 0.6%, 36.7% de pays ont un taux de mortalité compris entre 0.6% et 0.7%, 30.6% de pays
ont un taux de mortalité compris entre 0.7% et 0.8% et 8.2% de pays ont un taux de mortalité supérieur
à 0.8%. Enfin, le codage non paramétrique utilisé pour obtenir ces résultats suppose que les écarts entre
deux modalités consécutives sont constants. Compte tenu de cette limite, nous proposons dans la section
suivante l’utilisation des scores de Ridit brutes et standardisés.

© Revue Modulad 2018 64 Numéro 45

4.1.2 Utilisation des scores de Ridit.

Factorial Plan

ExURSS
●
Europe
●
2

● Afrique
●
1

Alena
●
Axe n°2 (19.92%)

●
● AmSudCentre
●
AsieOrientale
●

●
−1

●
−2

ProchMoyOrient
●
−3

●
−4

−5 0 5 10

Axe n°1 (64.95%)

FIGURE 3 – Plan des projections obtenu par les scores de Ridit bruts.
Correlation circle.
1.0
0.5

● TauMortalite
PIB
Composante n°2 (19.92%)

● IDH
● Electricite
0.0

● Population
● GAZEmission ● SousAl
● DepSante
● Fecondite
−0.5

● CroissPopulat
−1.0

−2 −1 0 1 2

Composante n°1 (64.95%)

F IG . 4 – Carte des Corrélations obtenu par les scores de Ridit bruts.

Nous utilisons à présent les scores de Ridit bruts dans l’ACP basée sur les barycentres. Le premier et
deuxième axe factoriel ont respectivement un pourcentage de variabilités de 64.95% et 19.92%. (cf. fi-
gures 3 et 4). Le positionnement des zones géographiques sur les axes factoriels (cf. figure 3) est similaire
de celui obtenu par le codage non paramétrique. Toutefois, dans le premier axe de la figure 3, l’opposition
entre Europe et l’Alena d’une part et l’Afrique est beaucoup plus manifeste. Au niveau des variables, la
variable IDH est mieux représentée dans la figure 4. En effet, lorsqu’on utilise les scores de Ridit bruts, la
corrélation de Pearson entre la variable IDH et la première composante principale est -0.93 (voir tableau
3). Cependant, cette corrélation est de l’ordre de 0.19 lorsqu’on utilise le codage non paramétrique.

© Revue Modulad 2018 65 Numéro 45

Analyse en composante principales d’un tableau de distributions macroéconomiques.

TABLE 4 – Corrélation entre les moyennes (par les scores de ridit brutes) et leur
composantes princiaples.
Variable Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
PIB -0.80 0.40 -0.22 0.18 0.35
SousAl 0.94 -0.19 0.27 0.02 -0.00
Electricite -0.88 0.03 -0.45 0.04 -0.13
GAZEmission -0.89 -0.18 -0.26 0.05 0.11
Population -0.12 -0.14 -0.05 0.87 -0.43
Fecondite 0.81 -0.42 -0.32 0.12 0.22
CroissPopulat 0.22 -0.91 -0.30 -0.11 -0.15
IDH -0.93 0.15 0.20 -0.10 0.23
TauMortalite 0.83 0.47 -0.28 -0.07 -0.05
DepSante -0.82 -0.32 -0.09 -0.43 0.09

TABLE 5 – Corrélation entre les moyennes (par les scores de ridit standardisés) et leur
compo-santes princiaples.
Variable Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
PIB -0.96 0.17 -0.07 -0.03 0.20
SousAl 0.99 -0.11 -0.08 -0.03 -0.02
Electricite -0.97 -0.04 0.11 0.20 -0.08
GAZEmission -0.93 -0.15 0.14 0.23 -0.19
Population -0.34 -0.10 -0.87 0.33 0.02
Fecondite 0.72 -0.49 0.14 0.29 0.36
CroissPopulat 0.28 -0.93 0.18 0.14 -0.05
IDH -0.97 0.04 0.02 -0.19 0.11
TauMortalite 0.62 0.61 0.24 0.44 0.03
DepSante -0.93 -0.14 0.25 0.11 0.13

4.1.3 Utilisation des scores de Ridit standardisés.

Dans le but d’uniformiser les valeurs des scores de Ridit des variables à analyser, il est également possible
de normaliser ou standardiser ces scores. Nous appliquons donc l’approche de Makosso-Kallyth et Diday
(2012) en utilisant des scores standardisés. Les résultats obtenus dans les figures 5 et 6 sont semblables
à ceux obtenus dans les figures 3 e t 4 . L es t ables 3 e t 4 c ontenant l es c orrélations e ntre l es moyennes
des variables et leurs composantes principales sont quasi similaires. Toutefois, la figure 5 m et p lus en
évidence l’hétérogénéité des zones géographiques notamment l’Afrique. En outre, la proximité en termes
de caractéristiques macroéconomique de l’Afrique, l’Amérique du Sud et du centre ainsi que l’Asie
orientale est plus perceptible.

© Revue Modulad 2018 66 Numéro 45

Factorial Plan

ExURSS
●
5

Europe
●

Afrique
●

●
Axe n°2 (14.05%)

●
Alena
●
AmSudCentre
●
AsieOrientale
●
0

●
●

●
ProchMoyOrient
●
−5

−10 0 10 20

Axe n°1 (69.1%)

FIGURE 5 – plan de projections obtenu par les scores de Ridit standardisés.

Correlation circle.
1.0

● TauMortalite
0.5
Composante n°2 (14.05%)

● PIB
● IDH
0.0

● Electricite
● Population ● SousAl
● DepSante
● GAZEmission
−0.5

● Fecondite

● CroissPopulat
−1.0

−2 −1 0 1 2

Composante n°1 (69.1%)

F IG . 6 – Carte des Corrélations obtenu par les scores de Ridit standardisés.

L’ACP Makosso-Kallyth et Diday (2012) se focalise essentiellement sur la moyenne des distributions
dans la détermination des axes principaux. Elle nécessite également un codage des modalités des variables
ainsi que le choix de la valeur de t dans la règle de Tchebytchev. Dans la section suivante nous appliquons
la seconde approche décrite dans le cadre de cet article.
Les figures 7 et 8 représentent respectivement les plans de projections des individus. Dans la figure 7,
les individus sont représentés sous la forme de rectangles. Plus la surface des rectangles est grande, plus
la dispersion des concepts est importante. La dispersion des concepts ici se rapporte à la dispersion des
quantiles et non à la dispersion des moyennes. Au regard de la figure 7, on est forcé de noter que L’Alena
(Usa, Canada, Mexique) semble être la zone géographique la plus homogène.

Dans la figure 8 nous représentons en 2D les enveloppes convexes de la projection des quantiles (voir
aussi Irpino et al. (2003)). Par rapport aux rectangles, les enveloppes convexes en deux dimensions per-
mettent de mieux visualiser la dispersion des concepts. La figure 8 conforte la constatation précédente
selon laquelle l’Alena serait la zone géographique la plus homogène.

© Revue Modulad 2018 67 Numéro 45

Analyse en composante principales d’un tableau de distributions macroéconomiques.

Factorial Map
2

● Alena
ProchMoyOrient
1

●
Dim n.2 (16.36%)

● Europe AsieOrientale
● ● AmSudCentre
● Afrique
−1

● ExURSS
−2

−6 −4 −2 0 2 4 6

Dim n.1 (60.82%)

FIGURE 7 – Plan de projections avec représentation des rectangles.

Factorial Map
2

●
● ● ●●
●
●
●
● Alena
●● ● ProchMoyOrient
1

●
● ●
●
●
●
●
●
Dim n.2 (16.36%)

●
●
● ●
● ● ●
0

●●
Europe ● ● ● ● ● ●
●
● AsieOrientale
● ●● ● ●
AmSudCentre ●
● ● Afrique
●
●
●
● ●
● ● ●
−1

●
●
●
● ExURSS
●
●

●
●
−2

−6 −4 −2 0 2 4 6

Dim n.1 (60.82%)

FIGURE 8 – Plan de projections avec représentation des enveloppes convexes.

Correlation Map
1.0

● CroissPopulat
0.5

● Population ● Fecondite
● GAZEmission
Dim n.2 (16.36%)

● DepSante
●
● PIB
Electricite
IDH
● SousAl
0.0
−0.5

● TauMortalite
−1.0

−3 −2 −1 0 1 2 3

Dim n.1 (60.82%)

FIGURE 9 – Carte des corrélations.

Makosso-Kallyth (2015).

TABLE 6 – Corrélation entre les quantiles des variables et les 5 premières composantes
prin-cipales.
Variable Comp.1 Compo.2 Comp.3 Comp.4 Comp.5
PIB -0.90 0.14 -0.03 0.62 -0.28
SousAl 0.94 0.08 0.22 -0.29 0.13
Electricite -0.92 0.13 -0.41 0.43 -0.02
GAZEmission -0.85 0.32 -0.48 0.50 0.38
Population -0.32 0.49 0.65 0.32 0.02
Fecondite 0.62 0.47 -0.19 0.21 0.08
CroissPopulat 0.38 0.83 -0.16 0.19 0.42
IDH -0.91 0.13 -0.27 0.06 -0.17
TauMortalite 0.51 -0.65 0.19 0.14 0.02
DepSante -0.91 0.19 -0.32 0.66 -0.20

La figure 9 ci-dessus permet d’interpréter les figure 7 et 8. Les résultats obtenus dans ces graphiques
sont assez similaires de ceux obtenus avec l’approche proposée par Makosso-Kallyth et Diday (2012).
On note par exemple que sur l’axe 1, l’Afrique est opposé à l’Europe et l’Alena. Les raisons de cette
constatations sont essentiellement dues au fait que des variables telles que la croissance de la population
et le taux de mortalité sont élevés en Afrique mais faible en Europe et en Amérique du nord (Alena).
Enfin, contrairement à la méthode des barycentres avec codage non paramétrique, la variable IDH est
bien représentée sur l’axe 1 (voir la table 6).

Analyse en composante principales d’un tableau de distributions macroéconomiques.

5 Discussion.

Cet article présente l’application de deux extensions de l’ACP à un tableau de distributions macroéco-
nomiques. Les méthodes décrites déterminent les axes principaux des moyennes ou des quantiles. La
méthode basée sur la détermination des barycentres requiert au préalable un codage des modalités. Plu-
sieurs approches sont envisageable à cet effet. Le codage non paramétrique par exemple est d’un usage
simple et est moins contraignant que le codage paramétrique. Cependant, une des limites du codage non
paramétrique est le fait de considérer de manière implicite que les écarts entre centre deux classes consé-
cutives sont constants. Pour venir à bout de cette limite, on propose également un codage par les scores
de Ridit. Dans les analyses effectuées, ces scores (brutes et standardisés) ont permis de mieux mettre en
évidence du point de vue graphique (voir les figures 5 et 3) l’opposition entre pays riche (Alena, Europe)
et pays pauvre ou en voie de développement (Afrique). Dans la détermination des axes principaux, l’ACP
proposée par Makosso-Kallyth et Diday (2012) est essentiellement classique. Cependant, son aspect sym-
bolique découle du fait qu’elle détermine des hypercubes d’intervalles et qu’elle projette ces hypercubes
en éléments supplémentaires. Bien qu’il soit possible d’utiliser en éléments actifs les hypercubes ou les
intervalles issus de la transformation des histogrammes dans le cadre d’une ACP symbolique, une telle
démarche équivaudrait à l’analyse d’un tableau d’intervalles et non à l’analyse directe d’un tableau de
distribution. De plus, la transformation du tableau d’histogrammes ou de distribution en tableau d’in-
tervalle n’est pas bijective. Pour un tableau donné de distributions on peut faire correspondre plusieurs
tableau d’intervalles. Ainsi, assimiler le tableaux d’intervalles transformés à un tableau actifs conduirait
de facto à de multiples système d’axes principaux. Dans l’ACP de Makosso-Kallyth et Diday (2012) par
contre, les axes principaux sont uniques. Toutefois, la visualisation des individus varie en fonction des
intervalles construit par l’inégalité de Tchebychev.

L’approche proposé par Makosso-Kallyth (2015) utilise plusieurs point caractéristiques des distribu-
tions (les quantiles). Elle ne nécessite aucun codage de modalités. Elle exige toutefois la spécification
du nombre de quantiles ainsi que leur localisation. Contrairement aux moyennes, les quantiles se prêtent
bien à toutes les formes de distributions (symétriques, non symétriques, etc.).

6 Conclusion
Cet article compare deux adaptations ou extensions de l’ACP à un tableau de distributions. Ces
approches se prêtent bien à l’analyse exploratoire de données à deux niveaux de généralité (pays et zones
géogra-phiques, par exemple). Elles sont des compléments de l’ACP classique et de peuvent renforcer
l’analyse des données exploratoires de données complexes. Elles permettent par exemple à partir d’un
simple coup d’oeil l’identification d’agrégats économiques similaires. Elles permettent aussi de
s’imprégner de la dis-persion de ces agrégats économiques. L’approche proposée par Makosso-Kallyth
et Diday (2012), est plus ou moins tributaire du choix du codage des modalités des variables. Du fait de
l’impact du codage, on peut par exemple utiliser dans une première mesure le codage par les scores
de Ridit standardisés et recourir à des codages alternatifs dans le cadre d’une analyse de sensibilité.
L’approche basée sur les quantiles par contre, nécessite un choix a priori du nombre de quantiles ainsi
que leur localisation. Elle ne nécessite cependant aucun codage. Toutefois, lorsque le nombre de
variables p devient très grand, les méthodes présentées, notamment l’ACP de Makosso-Kallyth et
Diday (2012), deviennent fastidieuses et les problèmes liés à la malédiction de la dimension (voir
Bellman (1961)) peuvent resurgir. Dans de telles circonstances le recours à des versions régularisées de
l’ACP pourrait améliorer les approches présentées.

Références
Agresti, A. (2002). Categorical data analysis. Wiley series in probability and statistics. Hoboken (N.J.) :
J. Wiley.
Bellman, R. (1961). Adaptive Control Processes. Princeton University Press.
Billard, L. et E. Diday (2006). Symbolic Data Analysis : conceptual statistics and data Mining. Berlin :
Wiley series in computational statistics.
Bock, H.-H. et E. Diday (2000). Analysis of Symbolic Data, Exploratory Methods for Extracting Statis-
tical Informations from Complex Data. Berlin : Springer.
Bross, I. D. J. (1958). How to use ridit analysis. Biometrics 14(1), pp. 18–38.
Diday, E. (1988). Introduction à lanalyse des données symboliques : objets symboliques modaux et
implicites. In Deuxis Journées Symbolique-Numérique, Université dOrsay., Orsay, France, pp. 127–
139.
Diday, E. (1989). Introduction approche symbolique en analyse des donn. RAIRO - Operations Research
- Recherche Opérationnelle 23(2), 193–236.
Diday, E. (2013). Principal component analysis for bar charts and metabins tables. Statistical analysis
and data mining 6(5), 403–430.
Diday, E. et M. Noirhomme-Fraiture (2008). Symbolic Data Analysis and the SODAS Software. Chiches-
ter : Wiley Interscience.
Donaldson, G. W. (1998). Ridit scores for analysis and interpretation of ordinal pain data. European
Journal of Pain 2(3), 221–227.
Ichino, M. (2011). The quantile method for symbolic principal component analysis. Stat. Anal. Data
Min. 4(2), 225–233.
Irpino, A., C. Lauro, et R. Verde (2003). Visualizing symbolic data by closed shapes. In Between Data
Science and Applied Data Analysis, pp. 244–251. Springer Berlin Heidelberg.
Makosso-Kallyth, S. (2015). Principal axes analysis of symbolic histogram variables. Statistical Analysis
and Data Mining : The ASA Data Science Journal, n/a–n/a.
Makosso-Kallyth, S. et E. Diday (2010). Analyse en axes principaux de variables symboliques de type
histogramme. In 42s Journées de Statistique, Marseille, France.
Makosso-Kallyth, S. et E. Diday (2012). Adaptation of interval pca to symbolic histogram variables.
Advances in Data Analysis and Classification 6, 147–159.
Mantel, N. (1979). Ridit analysis and related ranking procedures–use at your own risk. American Journal
Epidemiol. (109), 25–29.
Nagabhushan, P. et R. P. Kumar (2007). Histogram pca. In ISNN (2), pp. 1012–1021.
Rodriguez, O., E. Diday, et S. Winberg (2000). Generalization of the principal components analysis to
histogram data. In 4th European Conference on Principles and Practice of Knowledge Discovery in
Data Bases, Lyon, France.
Verde, R., A. Irpino, et A. Balzanella (2015). Dimension reduction techniques for distributional symbolic
data. Cybernetics, IEEE Transactions on PP(99), 1–1.

Analyse en composante principales d’un tableau de distributions macroéconomiques.

Annexes
Les tableaux de distributions utilisées sont données ci-dessous :

TABLE 7 – Variable PIB

Region PIB1 PIB2 PIB3 PIB4 PIB5
1 Afrique 0.34 0.51 0.06 0.08 0.00
2 AmSudCentre 0.00 0.27 0.54 0.18 0.00
3 Alena 0.00 0.00 0.00 0.33 0.67
4 AsieOrientale 0.07 0.67 0.07 0.07 0.13
5 ExURSS 0.00 0.43 0.28 0.28 0.00
6 Europe 0.00 0.00 0.16 0.16 0.68
7 ProchMoyOrient 0.00 0.50 0.25 0.00 0.25

TABLE 8 – Variable Sous alimentation

Region SousAlim1 SousAlim2 SousAlim3 SousAlim4 SousAlim5
1 Afrique 0.06 0.13 0.28 0.19 0.34
2 AmSudCentre 0.04 0.36 0.46 0.09 0.04
3 Alena 0.67 0.33 0.00 0.00 0.00
4 AsieOrientale 0.13 0.13 0.53 0.20 0.00
5 ExURSS 0.21 0.50 0.14 0.07 0.07
6 Europe 0.74 0.26 0.00 0.00 0.00
7 ProchMoyOrient 0.12 0.62 0.12 0.00 0.12

TABLE 9 – Variable Electricité

Region Electricte1 Electricte2 Electricte3 Electricte4 Electricte5
1 Afrique 0.58 0.19 0.23 0.00 0.00
2 AmSudCentre 0.14 0.33 0.48 0.05 0.00
3 Alena 0.00 0.00 0.33 0.33 0.33
4 AsieOrientale 0.33 0.27 0.20 0.20 0.00
5 ExURSS 0.00 0.00 0.87 0.13 0.00
6 Europe 0.00 0.00 0.35 0.48 0.16
7 ProchMoyOrient 0.15 0.00 0.38 0.31 0.15

TABLE 10 – Variable Emission de Gaz
Region EmisGaz1 EmisGaz2 EmisGaz3 EmisGaz4 EmisGaz5
1 Afrique 0.61 0.15 0.12 0.08 0.04
2 AmSudCentre 0.29 0.33 0.29 0.05 0.05
3 Alena 0.00 0.00 0.33 0.00 0.67
4 AsieOrientale 0.33 0.20 0.20 0.20 0.07
5 ExURSS 0.13 0.20 0.20 0.27 0.20
6 Europe 0.00 0.03 0.10 0.71 0.16
7 ProchMoyOrient 0.08 0.08 0.23 0.08 0.54

TABLE 11 – Variable Population

Region Population1 Population2 Population3 Population4 Population5
1 Afrique 0.08 0.24 0.14 0.51 0.02
2 AmSudCentre 0.05 0.24 0.33 0.33 0.05
3 Alena 0.00 0.00 0.00 0.33 0.67
4 AsieOrientale 0.06 0.11 0.06 0.50 0.28
5 ExURSS 0.00 0.47 0.27 0.20 0.07
6 Europe 0.10 0.23 0.23 0.45 0.00
7 ProchMoyOrient 0.09 0.27 0.18 0.36 0.09

TABLE 12 – Variable Fecondite

Region Fecondite1 Fecondite2 Fecondite3 Fecondite4 Fecondite5
1 Afrique 0.09 0.27 0.36 0.27 0.00
2 AmSudCentre 0.00 0.71 0.29 0.00 0.00
3 Alena 0.33 0.67 0.00 0.00 0.00
4 AsieOrientale 0.62 0.25 0.12 0.00 0.00
5 ExURSS 0.60 0.40 0.00 0.00 0.00
6 Europe 0.93 0.07 0.00 0.00 0.00
7 ProchMoyOrient 0.00 0.67 0.33 0.00 0.00

TABLE 13 – Variable Croissance de la population.

Region CroisPopul1 CroisPopul2 CroisPopul3 CroisPopul4 CroisPopul5
1 Afrique 0.00 0.10 0.26 0.63 0.00
2 AmSudCentre 0.00 0.30 0.65 0.04 0.00
3 Alena 0.00 0.33 0.67 0.00 0.00
4 AsieOrientale 0.00 0.28 0.50 0.22 0.00
5 ExURSS 0.60 0.13 0.27 0.00 0.00
6 Europe 0.00 0.81 0.12 0.08 0.00
7 ProchMoyOrient 0.00 0.00 0.25 0.50 0.25

Analyse en composante principales d’un tableau de distributions macroéconomiques.

TABLE 14 – Variable IDH

Region IDH1 IDH2 IDH3 IDH4 IDH5
1 Afrique 0.45 0.31 0.12 0.08 0.04
2 AmSudCentre 0.00 0.04 0.09 0.52 0.35
3 Alena 0.00 0.00 0.00 0.00 1.00
4 AsieOrientale 0.00 0.28 0.11 0.39 0.22
5 ExURSS 0.00 0.00 0.13 0.53 0.33
6 Europe 0.00 0.00 0.00 0.03 0.97
7 ProchMoyOrient 0.00 0.15 0.00 0.31 0.54

TABLE 15 – Variable Taux de mortalité

Region TauxMort1 TauxMort2 TauxMort3 TauxMort4 TauxMort5
1 Afrique 0.06 0.18 0.37 0.31 0.08
2 AmSudCentre 0.09 0.91 0.00 0.00 0.00
3 Alena 0.33 0.67 0.00 0.00 0.00
4 AsieOrientale 0.17 0.83 0.00 0.00 0.00
5 ExURSS 0.00 0.40 0.47 0.13 0.00
6 Europe 0.00 0.74 0.26 0.00 0.00
7 ProchMoyOrient 0.61 0.38 0.00 0.00 0.00

TABLE 16 – Variable dépense santé

Regions DEP1 DEP2 DEP3 DEP4 DEP5
1 Afrique 0.70 0.08 0.22 0.00 0.00
2 AmSudCentre 0.04 0.22 0.70 0.04 0.00
3 AmNord 0.00 0.00 0.33 0.00 0.67
4 AsOrient 0.56 0.22 0.06 0.11 0.06
5 ExURSS 0.20 0.20 0.53 0.07 0.00
6 Europe 0.00 0.00 0.23 0.11 0.66
7 PrMoyOr 0.15 0.08 0.38 0.23 0.15

Vous aimerez peut-être aussi

Analyse
Pas encore d'évaluation
Analyse
84 pages
Analyse en Composantes Principales : Méthode et Applications
Pas encore d'évaluation
Analyse en Composantes Principales : Méthode et Applications
18 pages
Statistiques Avec Rgui
Pas encore d'évaluation
Statistiques Avec Rgui
57 pages
Cours D'analyse de Donnees Ecodoc Istm 2023-2024
Pas encore d'évaluation
Cours D'analyse de Donnees Ecodoc Istm 2023-2024
117 pages
SUPPORT DE COURS Statistiques Partie I - 104156
Pas encore d'évaluation
SUPPORT DE COURS Statistiques Partie I - 104156
14 pages
Analyse Des Correspondances Multiples-2012-2 Cle838d4f
100% (3)
Analyse Des Correspondances Multiples-2012-2 Cle838d4f
33 pages
Cours - ACP - Copie
Pas encore d'évaluation
Cours - ACP - Copie
7 pages
Analyse Donnees Multivariees
Pas encore d'évaluation
Analyse Donnees Multivariees
66 pages
Rsa 2002 50 4 5 0
Pas encore d'évaluation
Rsa 2002 50 4 5 0
34 pages
Chapitre 2 2020
Pas encore d'évaluation
Chapitre 2 2020
55 pages
Exemples de variables qualitatives
100% (1)
Exemples de variables qualitatives
26 pages
Analyse de Données: Méthodes et Applications
Pas encore d'évaluation
Analyse de Données: Méthodes et Applications
22 pages
Tuto 4-2 - ACP
Pas encore d'évaluation
Tuto 4-2 - ACP
40 pages
Analyse Factorielle Multiple de Données Mixtes - Principe Et Exemple D'application
Pas encore d'évaluation
Analyse Factorielle Multiple de Données Mixtes - Principe Et Exemple D'application
6 pages
Analyse Et Sécurité de Données Multimédia
Pas encore d'évaluation
Analyse Et Sécurité de Données Multimédia
35 pages
Analyse de Donnees
100% (2)
Analyse de Donnees
44 pages
Cours Analyse Des Donnees
Pas encore d'évaluation
Cours Analyse Des Donnees
41 pages
Méthode ACP : Réduction de dimension
Pas encore d'évaluation
Méthode ACP : Réduction de dimension
12 pages
Acp 302
Pas encore d'évaluation
Acp 302
7 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
14 pages
ADD Chap1+FD1+Corrigé
Pas encore d'évaluation
ADD Chap1+FD1+Corrigé
11 pages
2 Analyse en Composantes Principales - Learn Machine Learning
Pas encore d'évaluation
2 Analyse en Composantes Principales - Learn Machine Learning
39 pages
Cours ACM
50% (2)
Cours ACM
51 pages
Analyse Factorielle des Correspondances
Pas encore d'évaluation
Analyse Factorielle des Correspondances
11 pages
Introduction à l'analyse de données
Pas encore d'évaluation
Introduction à l'analyse de données
15 pages
Manuel d'Analyse Statistique Multivariée
Pas encore d'évaluation
Manuel d'Analyse Statistique Multivariée
144 pages
Manuel d'Analyse Statistique Multivariée
Pas encore d'évaluation
Manuel d'Analyse Statistique Multivariée
144 pages
Analyse de Donnés
Pas encore d'évaluation
Analyse de Donnés
11 pages
V. Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
V. Analyse en Composantes Principales (ACP)
6 pages
Introduction à l'analyse des données
Pas encore d'évaluation
Introduction à l'analyse des données
90 pages
Notes Analyses Statistiques Multivariees
Pas encore d'évaluation
Notes Analyses Statistiques Multivariees
86 pages
Cours
Pas encore d'évaluation
Cours
44 pages
CHAPITRE3
Pas encore d'évaluation
CHAPITRE3
28 pages
Méthode d'Analyse en Composantes Principales
Pas encore d'évaluation
Méthode d'Analyse en Composantes Principales
18 pages
ANALYSE DES DONNEES Chap 2
Pas encore d'évaluation
ANALYSE DES DONNEES Chap 2
4 pages
02représentation Graphique
Pas encore d'évaluation
02représentation Graphique
6 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
16 pages
Formulaire AD
Pas encore d'évaluation
Formulaire AD
3 pages
Stat Chapitre I&2
Pas encore d'évaluation
Stat Chapitre I&2
3 pages
Diapositives D'analyse en Composantes Principales
Pas encore d'évaluation
Diapositives D'analyse en Composantes Principales
25 pages
BAMSIREPRINT04
Pas encore d'évaluation
BAMSIREPRINT04
80 pages
Analyse Des Donnees
Pas encore d'évaluation
Analyse Des Donnees
10 pages
Méthodes d'Analyse des Données en Marketing
100% (1)
Méthodes d'Analyse des Données en Marketing
105 pages
Acp PDF
Pas encore d'évaluation
Acp PDF
18 pages
Introduction à l'Analyse en Composantes Principales
Pas encore d'évaluation
Introduction à l'Analyse en Composantes Principales
37 pages
Cours Analyse Des Données - Fi22300090
Pas encore d'évaluation
Cours Analyse Des Données - Fi22300090
92 pages
Analysse Des Données Ecole D'été AB UCAD 2022
Pas encore d'évaluation
Analysse Des Données Ecole D'été AB UCAD 2022
52 pages
Analyse des Données : Méthodes et Applications
0% (1)
Analyse des Données : Méthodes et Applications
50 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
74 pages
Analyse Qualitative et Quantitative B3
Pas encore d'évaluation
Analyse Qualitative et Quantitative B3
21 pages
Statistiques Descriptives et Variables
Pas encore d'évaluation
Statistiques Descriptives et Variables
10 pages
Support de Cours Module ADD Univ Annaba (Tchi Drive)
Pas encore d'évaluation
Support de Cours Module ADD Univ Annaba (Tchi Drive)
104 pages
Chapitre 3 Analyse Des Correspondances Multiples
Pas encore d'évaluation
Chapitre 3 Analyse Des Correspondances Multiples
8 pages
Cours Analyse Exploratoire L3 Math App
Pas encore d'évaluation
Cours Analyse Exploratoire L3 Math App
35 pages
Acteurs PNAM
Pas encore d'évaluation
Acteurs PNAM
1 page
Processus ETL pour la dimension Produit
Pas encore d'évaluation
Processus ETL pour la dimension Produit
5 pages
Cours ADD
Pas encore d'évaluation
Cours ADD
97 pages
Analyse ACP : Concepts et Applications
Pas encore d'évaluation
Analyse ACP : Concepts et Applications
53 pages
Statistiques Fonds de Soutien Innovation
Pas encore d'évaluation
Statistiques Fonds de Soutien Innovation
1 page
Modèles de Programmation Non Linéaire
Pas encore d'évaluation
Modèles de Programmation Non Linéaire
18 pages
Description Textuelle
Pas encore d'évaluation
Description Textuelle
2 pages
Installation et Exploration SQL Server 2012
Pas encore d'évaluation
Installation et Exploration SQL Server 2012
4 pages
Mapping Jeunesse Culture Casa Settat
Pas encore d'évaluation
Mapping Jeunesse Culture Casa Settat
42 pages
Renforcement des sols par géosynthétiques
Pas encore d'évaluation
Renforcement des sols par géosynthétiques
3 pages
5e - Chapitre 3 - Triangles Et Droites Du Triangle
Pas encore d'évaluation
5e - Chapitre 3 - Triangles Et Droites Du Triangle
7 pages
Correction Le Rayonnement Solaire - Activité 1 PDF
Pas encore d'évaluation
Correction Le Rayonnement Solaire - Activité 1 PDF
3 pages
COURS DU SOIR ETOILE Math TD - Copie
Pas encore d'évaluation
COURS DU SOIR ETOILE Math TD - Copie
3 pages
Analyse de la série de Fourier
Pas encore d'évaluation
Analyse de la série de Fourier
6 pages
1 QCM Asservissements Mode de Compatibilite
Pas encore d'évaluation
1 QCM Asservissements Mode de Compatibilite
12 pages
Série 1 Exos
Pas encore d'évaluation
Série 1 Exos
3 pages
2023 ENPC CASME Séance 3
Pas encore d'évaluation
2023 ENPC CASME Séance 3
119 pages
O 12 Crs.4e Espace Cone de Revolution
Pas encore d'évaluation
O 12 Crs.4e Espace Cone de Revolution
3 pages
Programme Physique-Chimie 3ème
100% (1)
Programme Physique-Chimie 3ème
2 pages
Cours Thermique Eleve 2016
Pas encore d'évaluation
Cours Thermique Eleve 2016
5 pages
Corrige Des Exercices Sur Les Statistiques en 2de Corriges 20336
Pas encore d'évaluation
Corrige Des Exercices Sur Les Statistiques en 2de Corriges 20336
5 pages
Cours TC2 Echangeur de Chaleur Avec Changement de Phases
71% (7)
Cours TC2 Echangeur de Chaleur Avec Changement de Phases
7 pages
Droite de Pente Local
100% (3)
Droite de Pente Local
22 pages
Devoir 1 Et 2
Pas encore d'évaluation
Devoir 1 Et 2
2 pages
TD Mécanique Appliquée: Cisaillement et Résistance
100% (1)
TD Mécanique Appliquée: Cisaillement et Résistance
3 pages
Maths : Aménagement jardin BAC D
Pas encore d'évaluation
Maths : Aménagement jardin BAC D
2 pages
Td2 Meilleure Approx
Pas encore d'évaluation
Td2 Meilleure Approx
2 pages
Examen M2 Mai2015new
Pas encore d'évaluation
Examen M2 Mai2015new
4 pages
Exo-Corr-Complexe TSE
60% (5)
Exo-Corr-Complexe TSE
52 pages
Corrige CB4 PH1 Phy Ensp - Iut 2024 - Das
Pas encore d'évaluation
Corrige CB4 PH1 Phy Ensp - Iut 2024 - Das
10 pages
Optimisation
Pas encore d'évaluation
Optimisation
21 pages
Exercices M204 Controleur
100% (1)
Exercices M204 Controleur
15 pages
Calendrier Cours Chimie-Biologie 2023/2024
Pas encore d'évaluation
Calendrier Cours Chimie-Biologie 2023/2024
2 pages
Correction Ds MMC 2022 Master
Pas encore d'évaluation
Correction Ds MMC 2022 Master
4 pages
TD Analyse 1 l1s1 GC Fages
Pas encore d'évaluation
TD Analyse 1 l1s1 GC Fages
5 pages
Cours Statistique Et Probabilité
Pas encore d'évaluation
Cours Statistique Et Probabilité
37 pages
3e TD Resistance Électrique - Irempt-Wahab - Diop
Pas encore d'évaluation
3e TD Resistance Électrique - Irempt-Wahab - Diop
1 page
Devoir de Controle 1 3sc 2021
Pas encore d'évaluation
Devoir de Controle 1 3sc 2021
3 pages
2 Cours Themo 1 Et 2nd Principe
Pas encore d'évaluation
2 Cours Themo 1 Et 2nd Principe
35 pages

Analyse en Composante Principales D'un Tableau de Distributions Macroéconomiques

Transféré par

Analyse en Composante Principales D'un Tableau de Distributions Macroéconomiques

Transféré par

Analyse en composante principales d’un tableau de

Résumé. Cet article présente l’application de deux extensions de l’analyse en composantes

© Revue Modulad 2018 55 Numéro 45

TABLE 1 – Exemple de variable symbolique de type histogramme

2 Approache basée sur l’ACP des barycentres

© Revue Modulad 2018 56 Numéro 45

2.2 Codage des modalité des variables de type histogramme.

2.2.1 Codage paramétrique des modalités des variables.

© Revue Modulad 2018 57 Numéro 45

De même on remplace J par J 0 =]bj , hj ] avec

Le codage paramétrique a cependant quelques limites. Premièrement, son application requiert

2.2.2 Codage non paramétrique des modalités des variables.

© Revue Modulad 2018 58 Numéro 45

2.2.3 Codage à partir des scores de Ridit.

© Revue Modulad 2018 59 Numéro 45

2.3 ACP des centres et representation des individus.

Makosso-Kallyth et Diday (2012) projettent chaque hypercube Mi ( matrice d’ordre 2p × p)

L’approche proposée par Makosso-Kallyth et Diday (2012) se focalise essentiellement sur la

© Revue Modulad 2018 60 Numéro 45

exp(2ZY1 ,Y2 ,Q(1) ,...,Q(m) ) − 1

© Revue Modulad 2018 61 Numéro 45

4.1 Application de l’approche basée sur l’ACP des barycentres.

4.1.1 Utilisation du codage non paramétrique.

TABLE 2 – Variables sélectionnées.

© Revue Modulad 2018 62 Numéro 45

Axe n°1 (66.79%)

FIGURE 1 – Plan des projections de l’ACP des moyennes des variables.

Composante n°1 (66.79%)

F IG . 2 – Carte des Corrélations de l’ACP des moyennes des variables.

© Revue Modulad 2018 63 Numéro 45

© Revue Modulad 2018 64 Numéro 45

Axe n°1 (64.95%)

Composante n°1 (64.95%)

F IG . 4 – Carte des Corrélations obtenu par les scores de Ridit bruts.

© Revue Modulad 2018 65 Numéro 45

4.1.3 Utilisation des scores de Ridit standardisés.

© Revue Modulad 2018 66 Numéro 45

Axe n°1 (69.1%)

FIGURE 5 – plan de projections obtenu par les scores de Ridit standardisés.

Composante n°1 (69.1%)

F IG . 6 – Carte des Corrélations obtenu par les scores de Ridit standardisés.

© Revue Modulad 2018 67 Numéro 45

Dim n.1 (60.82%)

FIGURE 7 – Plan de projections avec représentation des rectangles.

Dim n.1 (60.82%)

FIGURE 8 – Plan de projections avec représentation des enveloppes convexes.

Dim n.1 (60.82%)

FIGURE 9 – Carte des corrélations.

© Revue Modulad 2018 68 Numéro 45

© Revue Modulad 2018 69 Numéro 45

© Revue Modulad 2018 70 Numéro 45

© Revue Modulad 2018 71 Numéro 45

TABLE 7 – Variable PIB

TABLE 8 – Variable Sous alimentation

TABLE 9 – Variable Electricité

© Revue Modulad 2018 72 Numéro 45

TABLE 11 – Variable Population

TABLE 12 – Variable Fecondite

TABLE 13 – Variable Croissance de la population.

© Revue Modulad 2018 73 Numéro 45

TABLE 14 – Variable IDH

TABLE 15 – Variable Taux de mortalité

TABLE 16 – Variable dépense santé

© Revue Modulad 2018 74 Numéro 45

Vous aimerez peut-être aussi