Méthodes Avancées d’Analyse de Données :
Méthodes de classification
Mohammed El Haj Tirari
tirari@[Link]
Septembre 2012
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
la classification hiérarchique
Classification par Nuées dynamiques
Les méthodes de classification
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
la classification hiérarchique
Classification par Nuées dynamiques
Introduction
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
la classification hiérarchique
Classification par Nuées dynamiques
Introduction
Les techniques de classification sont des techniques qui permettent
de construire des "typologies d’individus" en regroupant des
individus (ou des produits, des entreprises, des animaux, ...) en
classes homogènes.
Les techniques de classification est donc une démarche
algorithmique itérative facile à comprendre dont l’objectif est de
chercher à effectuer des regroupements d’individus statistiques les
plus proches selon plusieurs caractéristiques (dans un espace à
dimensions multiples).
Dans cette partie, nous aborderons deux grands types d’algorithmes
de classification :
1 la classification hiérarchique
2 la méthode des nuées dynamiques (Classification
non-hiérarchique)
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
la classification hiérarchique
Classification par Nuées dynamiques
Introduction
Le nom de classification est donné à toute méthode ayant pour
objectif la représentation des liens entre individus d’une
population, sur lesquels on a observé un certain nombre de
variables, afin de dégager l’existence de classes dans lesquelles
se répartissent ces individus.
Dans une «bonne» classification, une classe se réfère à un
sous-ensemble B de caractéristiques tel que :
,→ Chaque individu de la classe possède un proportion importante
de caractéristiques de B ;
,→ Chaque caractéristique de B est présente dans une proportion
importante.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
la classification hiérarchique
Classification par Nuées dynamiques
Introduction
Le but d’une méthode de classification est d’apporter une
réponse au problème suivant :
Comment décomposer une population d’individus, décrits par
un ensemble de caractéristiques (des variables) en
∗ un certain nombre de classes homogènes et disjointes :
partition ?
∗ ou une suite de partitions emboîtées, chacune correspondant à
un niveau de degré de ressemblance : classification
hiérarchique ?
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
la classification hiérarchique
Classification par Nuées dynamiques
Introduction
La classification hiérarchique (Hierarchical Cluster Analysis) fait
partie des techniques de classification traditionnelles.
Menée à la fin d’une phase exploratoire, elle permet d’identifier des
groupes d’individus (répondants, clients, patients, produits) en
fonction de similitudes.
Nous pouvons distinguer deux types de techniques de classification :
∗ les classifications hiérarchiques qui s’utilisent généralement sur
des jeux de données relativement petits,
∗ les classifications non hiérarchiques (nuées dynamiques).
On note que les deux types de techniques de classification ne
s’utilisent pas dans le même contexte :
,→ Compte tenu de son algorithme relativement lourd, la
classification hiérarchique s’utilise sur des jeux de données
relativement petits (maximum 200 observations) contrairement
à la classification non-hiérarchique.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
La classification hiérarchique
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Principe de la classification hiérarchique
Par défaut, la classification hiérarchique procède à un regroupement
d’individus (les lignes pour un fichier de données SPSS) caractérisés
par des critères continus (les variables).
Lors de la première étape, chaque individu est considéré comme une
classe à part entière. Nous avons donc, à ce niveau du processus,
autant de classes que d’individus (N classes pour N individus).
L’algorithme de classification hiérarchique commence par calculer
une distance entre toutes les classes (généralement, la distance
euclidienne est utilisée) : plus cette distance sera petite, plus les
classes seront proches (similaires).
Une fois l’ensemble des distances entre les points calculées,
l’algorithme va fusionner les deux individus (ou les deux classes)
ayant la distance la plus petite (donc les plus semblables) pour ne
constituer qu’une seule classe.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Principe de la classification hiérarchique
Ainsi, à la fin de la première étape, une classe a disparu
(N − 1 classes pour N individus).
L’algorithme repart à zéro puisqu’il recalcule, à nouveau,
toutes les distances entre les classes, pour fusionner deux
nouvelles classes, selon le même principe que précédemment
(les classes dont les distances sont les plus petites).
A la fin de la deuxième étape, nous avons N − 2 classes pour
N individus.
Ce processus continue jusqu’à ce qu’il ne reste plus qu’une
seule classe. En d’autres termes, toutes les classes finissent, en
fin d’algorithme par ne constituer qu’une seule classe (1 classe
pour N individus).
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Principe de la classification hiérarchique
Soit un ensemble avec 9 éléments : a, b, c, d, e, f, g, h, i.
Supposons que la CHA a produit la suite de partitions suivante :
- niveau 0 abcdefghi
- niveau 1 a b c d (e f) (g h) i
- niveau 2 (a b d) c (e f) (g h) i
- niveau 4 (a b d c) (e f g h) i
- niveau 5 (a b c d e f g h i)
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Choix des variables
Les variables qui caractérisent les individus sont, généralement,
continues.
Exemple : les âges, des salaires, des chiffres d’affaires, des
volumes de ventes, etc.
L’utilisation de données ordinales est également acceptée
comme des indices de satisfaction (échelle de 1 à 7, par
exemple).
Pour le cas de variables nominales, on ne peut utiliser la
métrique euclidienne pour rendre compte de la proximité des
individus car elle repose sur des considérations de continuité.
Nous devrons choisir une autre métrique plus adaptée à ce
type de variables catégorielles (l’Analyse des Correspondances
Multiples).
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Choix des variables
Lors de la présélection, il est aussi préférable de ne pas prendre
toutes les variables mais seulement de ne sélectionner que
celles étant jugés pertinentes.
On fait souvent recours à une Analyse en Composantes
Principales afin de regrouper les variables contenant les mêmes
informations.
,→ L’ACP permet ainsi d’extraire des facteurs qui ont l’avantage
de comporter des informations différentes les uns des autres.
Ces facteurs ou composantes peuvent alors être utilisées à la
place des variables de départ pour la Classification
Hiérarchique. Ils possèdent des propriétés très intéressantes
puisqu’ils sont
∗ linéairement indépendants donc, non corrélés,
∗ sur une même échelle de mesure (continue).
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Le choix de la métrique
L’utilisateur est confronté à trois questions :
Quelles types de variables doivent être prises en compte, et
donc, quelle métrique doit être choisie pour mesurer la
distance entre les individus ?
Quelle méthode doit être choisie pour regrouper les individus
ou classes ?
Doit-on opérer à des transformations préalables des variables ?
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Le choix de la métrique
Pour les variables continues, on utilise traditionnellement une
distance euclidienne car facile à comprendre et facile à
calculer :
0
d2M (k, l) = (xk − xl )M(xk − xl )
où M = I ou M = V−1 est la matrice de variance covariance.
SPSS propose un grand nombre de distances plus ou moins
utilisées. Nous pouvons citer :
∗ le coefficient de corrélation de Pearson,
∗ Cosinus,
∗ Distance de Tchebycheff, etc ...,
Pour les variables nominales, on utilise une distance du Chi2.
La Chi2 est à la base de nombreuses techniques statistiques
comme l’Analyse des Correspondances.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Distances pour les données quantitatives
Distance euclidienne
0
d2M (k, l) = (xk − xl )M(xk − xl )
où M = I ou M = V−1 est la matrice de variance covariance.
Distance de Minkowsky
1
p λ
X
2 λ
dM (k, l) = | xkj − xlj |
j=1
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Distances pour les données qualitatives
Distance du Chi2 (χ2 ) : tableau de contingence
X \Y 1 ··· j ··· J Ensemble
1 n11 ··· n1j ··· n1J n1
.. .. .. .. .. .. ..
. . . . . . .
k nk1 ··· nkj ··· nkJ nk
.. .. .. .. .. .. ..
. . . . . . .
l nl1 ··· nlj ··· nlJ nl
.. .. .. .. .. .. ..
. . . . . . .
K nK1 ··· nKj ··· nKJ nK
Ensemble n1 ··· nj ··· nJ n
2
nkj nlj
J
X nk − nl
d2M (k, l) = nj
j=1 n
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Indice de similarité pour les tableaux binaires
a= nombre de fois où xkj = xlj = 1
b= nombre de fois où xkj = 1 et xlj = 0
c= nombre de fois où xkj = 0 et xlj = 1
d= nombre de fois où xkj = xlj = 0
a+b+c+d=n
a
Indice de Jaccard : d1 (k, l) = (a+b+c)
a+d
Indice de Solak : d3 (k, l) = (a+b+c+d)
|ad−bc|
Indice de Pearson : d6 (k, l) = [(a+b)(c+d)(a+c)(b+d)]2
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Standardisation des variables
Lorsque le nombre de variables devient conséquent, la probabilité
d’avoir des échelles différentes augmente ce qui crée des biais très
dommageables lors du calcul de distances. C’est la raison pour
laquelle il convient de ramener toutes les variables sur une même
échelle de mesure.
La technique classique est de standardiser les variables. En d’autres
termes, cette opération consiste à soustraire à chaque valeur la
moyenne de la variable, que l’on divise, ensuite, par l’écart type.
SPSS propose également d’autres méthodes de standardisation
comme de normer les valeurs entre 0 et 1 ou 1 et +1. Il est, en tout
cas, très difficile de savoir quelle méthode est la meilleure.
m ces techniques de standardisation ne sont pas à appliquer
systématiquement. Si on applique une classification par
exemple sur des variables ordinales (indices de satisfaction), il
est déconseillé de réaliser cette opération car cela risquerait de
réduire l’influence de certaines variables discriminantes.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Choix de la méthode
Sur quel critère repose le regroupement des individus en
classes ?
,→ SPSS propose 7 méthodes dites «d’agrégation»
Pouquoi autant de méthodes proposées par SPSS ?
,→ car lors du calcul des distances entre deux classes qui
comprennent plusieurs individus, il existe plusieurs possibilités
en matière de choix de points de référence de la classe :
→ On peut se baser sur le centre des classes.
→ On peut prendre en compte le nombre d’individus par classe et
donc obtenir une moyenne pondérée.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Stratégies d’agrégation
On appelle stratégie d’agrégation, la façon d’apprécier la proximité
entre deux classes C1 et C2 , au cours des agrégations successives
qui se réalisent lors de la construction de la hiérarchie.
La figure suivante présente deux exemples de méthodes
d’agrégation : l’agrégation selon le saut minimum et l’agrégation
selon le diamètre
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Stratégies d’agrégation
1. Méthode d’agrégation selon le saut minimum (Single Linkage ou
Nearest Neighbor) :
Cette méthode calcule les distances entre les points pour regrouper
les classes dont les distances entre les points sont les plus petites.
Elle se base sur la stratégie d’agrégation du lien minimum (le plus
proche voisin) :
D(C1 , C2 ) = M
| {zin} d(x, y)
x∈C1 ety∈C2
,→ Produit un phénomène de «chaînage» : Il suffit que deux
points, même éloignés, soient reliés par une suite de points qui
soient l’un «proche» de son suivant, pour que ces deux points
soient considérés comme «proches».
,→ Inconvénient : Incapacité de différencier des classes proches
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Stratégies d’agrégation
2. La méthode d’agrégation suivant le diamètre (Complete
Linkage ou Furthest Neighbor)
Cette méthode prend la démarche inverse, c’est-à-dire qu’une
fusion entre deux classes s’opère lorsque les distances entre
deux points de deux classes différentes sont les plus éloignées.
Elle se base sur la stratégie d’agrégation du lien maximum
(diamètre, complete linkage)
D(C1 , C2 ) = M
| {zax} d(x, y)
x∈C1 ety∈C2
Ces deux premières méthodes d’agrégation utilisent seulement le
rang. Elles sont relativement insensibles aux valeurs extrêmes.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Stratégies d’agrégation
3. La méthode d’agrégation suivant la distance moyenne entre les
classes (Between-groups Average Linkage ou Baverage)
Le principe de cette méthode est de prendre en compte une moyenne
de distances entre les classes, pour chaque individu. Elle se base sur
la stratégie d’agrégation du lien moyen (Between group method)
1 X
D(C1 , C2 ) = d(x, y)
card(C1 )card(C2 )
x∈C1 ety∈C2
Cette méthode possède des propriétés intéressantes mais son
inconvénient est qu’elle est influencée par les valeurs extrêmes.
4. Une variante de la méthode d’agrégation 3. consiste à minimiser
l’indice du lien moyen calculé sur toutes les intra-distances de la
classe union :
,→ La méthode d’agrégation suivant la distance moyenne dans les
classes (Within group method)
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Stratégies d’agrégation
5. La méthode d’agrégation suivant les barycentres (centroïds)
Pour cette méthode le point de référence correspond à la
moyenne des points des classes. Puis, les distances sont
calculées à partir de ces moyennes qui vont représenter les
classes :
D(C1 , C2 ) = d(g1 , g2 )
où g1 et g2 sont respectivement les barycentres de C1 et C2 .
Cette technique est assez robuste et peu influencée par les
valeurs extrêmes.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Stratégies d’agrégation
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Stratégies d’agrégation
6. La technique d’agrégation selon la méthode de Ward
Les propriétés de cette méthode sont assez proches de la
méthode des distances moyennes entre les classes. Son
approche repose sur la décomposition de la variance.
Une variance comporte 2 éléments : une partie qui explique les
différences entre les classes (appelée variance inter classe ou
expliquée) et une autre qui relate les différences dans les
groupes (variance intra classe ou résiduelle).
Le critère de Ward regroupe les classes telle que la variance
inter groupe reste la plus grande (significatif de classes
éloignées les unes des autres) et la variance intra groupe la
plus petite (les classes doivent être homogènes).
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Stratégies d’agrégation
6. La technique d’agrégation selon la méthode de Ward
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Stratégies d’agrégation
6. La technique d’agrégation selon la méthode de Ward
Cette méthode se base sur la stratégie d’agrégation de Ward
(variance minimum) :
wC1 wC2
D(C1 , C2 ) = d(g1 , g2 )
wC1 + wC2
où wCi représente le poids de la classe Ci et gi le centre de
gravité de de la classe Ci (i = 1, 2). le centre de gravité g de
la classe union obtenue est donnée par
wC1 g1 + wC2 g2
g=
wC 1 + wC 2
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Démarche à suivre pour la classification hiérarchique
1. à partir du tableau de données T choisir un indice de
dissimilarité (la métrique) d sur les individus représentant les
associations deux à deux des individus.
2. Choisir une stratégie d’agrégation D sur les classes qui permet
d’agréger les classes les plus «proches».
3. Construction de la hiérarchie de partitions :
∗ au départ, on part de la partition dont les classes sont réduites
à un individu par classe.
∗ à l’étape t + 1, parmi les classes obtenues à l’étape t, on
agrège celles qui soient les plus proches au sens de D.
∗ on recommence alors l’étape précédente jusqu’à obtenir une
partition en une seule classe.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Pour la mise en oeuvre de la classification hiérarchique, nous allons
utiliser les données de la table "EchangesExterieurs" représentant les
échanges commerciaux internationaux du maroc selon : les
Investissement, les Recettes voyages, les Recettes MRE, les Importations
et les Exportations.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Etude graphique
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Choix de la méthode
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Choix de la métrique
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Standardisation des variables
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Graphiques
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Statistiques
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Chaîne des agrégations
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Chaîne des agrégations
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Diagramme des Stalactites
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Arbre Hiérarchique
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Arbre Hiérarchique
Si on choisit de faire une classification en trois classes, on a
∗ Classe 1 : Autres.
∗ Classe 2 : France et Espagne.
∗ Classe 3 : Emirates Arabes Unies, Chine, Kowait, Belgique,
GB, Saoudi-Arab, Allemagne, USA, Pays-Bas, Italie, Suède,
Tunisie, Finlande, Canada, Portugal, Autriche, Japon, Irlande,
Norvege, Danemark.
Il est important, à ce niveau, de faire appel à notre connaissance des
informations contenues dans le fichier pour pouvoir donner un sens
aux classes trouvées car il ne suffit pas de trouver des classes encore
faut-il leur donner une définition.
Comme on est en train d’utiliser une technique statistique dont
l’objectif est de décrire une réalité, le choix du nombre de classes est
juste à partir du moment où on a pu leur donner un sens réel.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Histogramme des indices de niveau
Un des premiers outils qu’on peut utiliser en complément du
Dendogramme est un graphique qui représente l’évolution de
la perte d’inertie inter-classes tout au long du processus de la
classification.
L’idée est de basculer dans le tableau "Chaînes d’agrégation"
les valeurs des coefficients vers un diagramme interactif en
batôns.
Pour se faire, dans le cadre de cette manipulation, on doit
supprimer une certain nombre de colonne superflues du tableau
"Chaînes d’agrégation".
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Histogramme des indices de niveau
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Histogramme des indices de niveau
L’histogramme des indices de niveau peut se lire de la droite vers la
gauche. Plus les classes deviennent différentes les unes des autres,
plus les batôns deviennent importants.
A en juger les derniers batôns, on constate qu’on a au moins deux
classes significativement différentes (le dernier batôn représente la
fusion des deux dernières classes).
Un découpage en 3 classes semble être une typologie acceptable
même si une 4ème classe pourrait être éventuellement considérée.
Il est possible d’obtenir le résultat de ce découpage dans la feuille
des résultats SPSS en demandant, dans la boîte de dialogue de
Classification hiérarchique, bôton Statistiques, une partition en 3
classes.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Histogramme des indices de niveau
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Histogramme des indices de niveau
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Histogramme des indices de niveau
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des résultats : Histogramme des indices de niveau
En plus des informations récupérées dans la fenêtre des
résultats, SPSS crée une nouvelle variable dans l’éditeur de
données qu’il a appelé CLUS3_1 (3 pour le nombre de classes
choisi et 1 pour analyse numéro 1, si on relance une deuxième
l’analyse, la variable sera dupliquée et s’appellera CLUS3_2).
La composition des trois classes obtenues est la suivante :
∗ Classe 1 : Autres.
∗ Classe 2 : France et Espagne.
∗ Classe 3 : Emirates Arabes Unies, Chine, Kowait, Belgique,
GB, Saoudi-Arab, Allemagne, USA, Pays-Bas, Italie, Suède,
Tunisie, Finlande, Canada, Portugal, Autriche, Japon, Irlande,
Norvege, Danemark.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des classes obtenues avec un cube OLAP
Il s’agit de simples tableaux qui permettent de décrire chaque classe. Par
exemple, on va construire un tableau contenant les montants moyens par
classe des échanges commerciaux internationnaux du Maroc. Pour cela, il
faut commencer par définir les modalités de la variable CLUS3_1 :
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des classes obtenues avec un Cube OLAP
Ensuite, utiliser le Cube OLAP de SPSS :
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des classes obtenues avec un Cube OLAP
Ensuite, utiliser le Cube OLAP de SPSS :
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Interprétation des classes obtenues avec un Cube OLAP
Faire pivoter Cube OLAP obtenu de telle sorte à ce que les statistiques
apparaissent en strates et que la variable CLUS3_1 en colonnes :
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Validation des résultats d’une classification
Il existe plusieurs méthodes permettant de confirmer/infirmer
les résultats d’une classification hiérarchique ou non.
L’idée est d’utiliser une technique dite supervisée où la variable
issue de la classification (Clus3_1) correspond à la variable
endogène et les autres variables du modèle sont les variables
exogènes (explicatives) :
,→ l’analyse discriminante
,→ la régression logistique
Ces techniques permettent non seulement de valider des
résultats mais pourront également mesurer le pouvoir
discriminant des variables prises en compte. Par exemple,
savoir quelles sont les variables qui ont contribué à classer les
individus.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Validation des résultats d’une classification
Une simple analyse de variance peut donner une idée du pouvoir
discriminant des variables.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Classification sur des coordonnées factorielles
Dans certaines situations, il peut être utile et plus rigoureux de
procéder à une Analyse en Composantes Principales avant une
Classification. La raison principale est que les variables issues
de l’ACP possèdent des propriétés très intéressantes (non
corrélées, quasi normaux, etc).
Dans ce cas, il est important de noter :
∗ Par défaut, SPSS produit une ACP normée. Il convient donc
de dé-normaliser les facteurs avant de réaliser une classification
en multipliant chaque facteur par la racine carrée de leur
valeur propre.
∗ La standardisation qui consistait à centrer et réduire les
variables n’est plus nécessaire lors d’une classification sur des
coordonnées factorielles.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Classification par Nuées dynamiques
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Principe
Les techniques de classification sont très coûteuses en temps et en
volume de calcul. La procédure K-Means de SPSS propose les
mêmes résultats généraux de la classification hiérarchique mais
utilise moins de ressources.
D’une façon générale, on utilise la classification en nuées
dynamiques lorsque l’on a des fichiers de données contenantt plus
de 200 observations. Pour des petits fichiers de données, on utilise
davantage la classification hiérarchique.
L’algorithme utilisé dans la procédure des nuées dynamiques est
celui des barycentres. Un individu est assigné à une classe à partir
du moment où la distance qui le relie au barycentre de la classe est
minimale. Cette procédure dépend essentiellement de l’initialisation
du problème.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Principe
Soit, on connaît déjà les centres de classe (les barycentres), et l’on
va introduire l’information dans l’algorithme. Il est fréquent
d’utiliser cette méthode lorsque l’on a un dessin de classification et
l’on souhaite intégrer de nouveaux individus
,→ Pour cela, on utilise souvent les résultats de la classification
hiérarchique pour récupérer les classes. Puis on calcule la
moyenne des variables, dans chaque classe, qui déterminera le
barycentre du groupe considéré.
Soit, on ne connaît pas le centre des classes, auquel cas,
l’algorithme va les estimer de lui-même.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Dans la cas où les centres de classe sont connus, la classification par
nuées dynamiques est utilisé lorsqu’on a des nouveaux individus
qu’on veut intégrer dans les classes connues.
Pour illusrer ce cas, on va utiliser les données de la table
"Eaux_Minérales" où les variables sont la composition chimique
(Bicarbonate, Sulfate, Chlore, Calcium, Magnésium, Sodium) pour
plusieurs marques d’eaux minérales.
L’exercice consiste à
∗ faire dans un premier temps, une classification hiérarchique de
ces eaux minérales selon leur composition chimique.
∗ ensuite, en utilisant le fichier "Eaux_Minérales_Maroc"
contenant aussi la composition chimique de plusieurs marques
d’eaux marocaines, l’objectif est d’utiliser la méthode de
classification par nuées dynamiques pour classer ces eaux
minérales marocaines dans les classes obtenues précédemment
avec la classification hiérarchique.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Le diagramme en batôns de la chaîne des agrégations et le
dendrogramme nous permet de déterminer l’existence de 3
classes significatives :
∗ Classe 1 : Aix, Evi, Tho et Cay.
∗ Classe 2 : Spa, Vil, Bec, Cri, Rib, Ver, et Lau.
∗ Classe 3 : Cha, Cyr, Hip, Fer, Per et Oge.
∗ Classe 4 : Ond et Vit.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
D’après les résultats du Cub OLAP, on peut interpréter ces trois
classes comme suit :
∗ Classe 1 : les eaux minérales caractérisées par de forts taux de
Bicarbonate et de Magnésium avec de faibles taux de Chlore et
de Sulfate.
∗ Classe 2 : les eaux minérales avec des plus faibles taux en
composantes chimiques (se sont des eaux minérales qui
peuvent considérées relativement "légères").
∗ Classe 3 : les eaux minérales caractérisées par des taux les
plus élevés de Chlore et de Sodium avec de faibles taux de
Sulfate et de Magnésium.
∗ Classe 4 : les eaux minérales caractérisées par des taux
largement élevés de Sulfate, de Calcium (par rapport aux autres
classes), les plus élevé taux de Bicarbonate et de Magnésium
avec le taux le plus faible de Sodium (se sont des eaux
minérales qui peuvent être qualifiées relativement "lourdes").
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Un centre de classe n’est rien d’autre que la moyenne de la
classe.
Afin de récupérer le centre de classe de toutes les variables
pour chaque classe, nous allons agréger le fichier
"Eaux_Minérales" en prenant, comme critère d’agrégation, la
variable définissant les groupes et comme fonction
d’agrégation, la moyenne des variables.
N.B. : La variable Critère d’agrégation doit, impérativement,
être nommée «Cluster_» pour que sa prise en compte dans la
procédure K-means Cluster se déroule normalement.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
On note que l’aggrégation s’effectue sur les valeurs standardisées
des variables et non pas sur les valeurs brutes.
Pour la classification par nuées dynamiques, on n’a pas la possibilité
de standardiser les valeurs variables directement avec la boite de
dialogue comme lors de la classification hiérarchique.
Cependant, on peut obtenir les variables contenant les valeurs
standardisées avec SPSS à partir de :
Analyse −→ Statistiques descriptives −→ Descriptives
,→ Les variables obtenues portent les noms des variables de départ
précédés d’un "Z".
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Pour réaliser une classification par nuées dynamiques en
considérant le cas où les centres des classes sont connus, on va
utiliser les données de la table "Eaux_Minérales_Maroc"
contenant la composition chimique de plusieurs marques
d’eaux minérales marocaines.
L’objectif est de faire une classification de ces eaux minérales
(4 classes) en prenant pour les centres de classe initiaux ceux
récupérés suite à la classification hiérarchique appliquée
précédemment en utilisant les données de la table
"Eaux_Minérales".
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont connus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont inconnus
Dans la plupart des cas, on ne dispose pas d’informations
concernant les centres des classe. Par conséquent, il est nécessaire
de les estimer.
L’algorithme utilisé par SPSS est itératif : si l’on souhaite une
classification en k classes homogènes, l’algorithme va sélectionner
les k individus les plus éloignés en les considérant comme les
barycentres temporaires des classes.
Ces barycentres vont être mis à jour dans un processus itératif. Un
individu va remplacer le centre de classe duquel il est le plus proche
dans les deux cas suivants :
∗ La plus petite distance qui le relie à un centre est plus grande
que la distance qui sépare les centres les plus proches.
∗ la plus petite distance qui le relie à un centre est plus grande la
plus petite distance qui sépare ce centre aux autres.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont inconnus
Une fois que l’on a des centres de classe, le processus itératif va
débuter et les mettre à jours. Toutes les observations vont être
affectées à la classe dont le centre est le plus proche.
Ainsi, les valeurs moyennes des variables seront calculées à partir
des observations qui ont été affectées à chaque classe et des
observations qui onte servi de centres de classes initiaux.
Les itérations cessent à partir du moment où le calcul de nouveaux
centres n’apporte plus rien. Les centres ainsi calculés vont alors
servir pour classer les individus.
A titre d’exemple, on va utiliser les données de la table
"Eaux_Minérales". Les résultats obtenus de la classification par
nuées dynamiques des eaux minérales de cette table en considérant
4 classes sont affichés ci-dessous :
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont inconnus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont inconnus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques
Cas où les centres des classes sont inconnus
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don