0% ont trouvé ce document utile (0 vote)
571 vues83 pages

Classification

Le document décrit les principes et méthodes de la classification hiérarchique, notamment le regroupement progressif des individus en classes en fonction de leur similarité selon plusieurs variables.

Transféré par

amine Houaf
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
571 vues83 pages

Classification

Le document décrit les principes et méthodes de la classification hiérarchique, notamment le regroupement progressif des individus en classes en fonction de leur similarité selon plusieurs variables.

Transféré par

amine Houaf
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Méthodes Avancées d’Analyse de Données :

Méthodes de classification

Mohammed El Haj Tirari

tirari@[Link]

Septembre 2012

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
la classification hiérarchique
Classification par Nuées dynamiques

Les méthodes de classification

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
la classification hiérarchique
Classification par Nuées dynamiques

Introduction

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
la classification hiérarchique
Classification par Nuées dynamiques

Introduction

Les techniques de classification sont des techniques qui permettent


de construire des "typologies d’individus" en regroupant des
individus (ou des produits, des entreprises, des animaux, ...) en
classes homogènes.

Les techniques de classification est donc une démarche


algorithmique itérative facile à comprendre dont l’objectif est de
chercher à effectuer des regroupements d’individus statistiques les
plus proches selon plusieurs caractéristiques (dans un espace à
dimensions multiples).

Dans cette partie, nous aborderons deux grands types d’algorithmes


de classification :
1 la classification hiérarchique
2 la méthode des nuées dynamiques (Classification
non-hiérarchique)

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
la classification hiérarchique
Classification par Nuées dynamiques

Introduction

Le nom de classification est donné à toute méthode ayant pour


objectif la représentation des liens entre individus d’une
population, sur lesquels on a observé un certain nombre de
variables, afin de dégager l’existence de classes dans lesquelles
se répartissent ces individus.
Dans une «bonne» classification, une classe se réfère à un
sous-ensemble B de caractéristiques tel que :
,→ Chaque individu de la classe possède un proportion importante
de caractéristiques de B ;
,→ Chaque caractéristique de B est présente dans une proportion
importante.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
la classification hiérarchique
Classification par Nuées dynamiques

Introduction

Le but d’une méthode de classification est d’apporter une


réponse au problème suivant :
Comment décomposer une population d’individus, décrits par
un ensemble de caractéristiques (des variables) en
∗ un certain nombre de classes homogènes et disjointes :
partition ?
∗ ou une suite de partitions emboîtées, chacune correspondant à
un niveau de degré de ressemblance : classification
hiérarchique ?

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
la classification hiérarchique
Classification par Nuées dynamiques

Introduction
La classification hiérarchique (Hierarchical Cluster Analysis) fait
partie des techniques de classification traditionnelles.
Menée à la fin d’une phase exploratoire, elle permet d’identifier des
groupes d’individus (répondants, clients, patients, produits) en
fonction de similitudes.
Nous pouvons distinguer deux types de techniques de classification :
∗ les classifications hiérarchiques qui s’utilisent généralement sur
des jeux de données relativement petits,
∗ les classifications non hiérarchiques (nuées dynamiques).
On note que les deux types de techniques de classification ne
s’utilisent pas dans le même contexte :
,→ Compte tenu de son algorithme relativement lourd, la
classification hiérarchique s’utilise sur des jeux de données
relativement petits (maximum 200 observations) contrairement
à la classification non-hiérarchique.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

La classification hiérarchique

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Principe de la classification hiérarchique


Par défaut, la classification hiérarchique procède à un regroupement
d’individus (les lignes pour un fichier de données SPSS) caractérisés
par des critères continus (les variables).

Lors de la première étape, chaque individu est considéré comme une


classe à part entière. Nous avons donc, à ce niveau du processus,
autant de classes que d’individus (N classes pour N individus).

L’algorithme de classification hiérarchique commence par calculer


une distance entre toutes les classes (généralement, la distance
euclidienne est utilisée) : plus cette distance sera petite, plus les
classes seront proches (similaires).

Une fois l’ensemble des distances entre les points calculées,


l’algorithme va fusionner les deux individus (ou les deux classes)
ayant la distance la plus petite (donc les plus semblables) pour ne
constituer qu’une seule classe.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Principe de la classification hiérarchique

Ainsi, à la fin de la première étape, une classe a disparu


(N − 1 classes pour N individus).

L’algorithme repart à zéro puisqu’il recalcule, à nouveau,


toutes les distances entre les classes, pour fusionner deux
nouvelles classes, selon le même principe que précédemment
(les classes dont les distances sont les plus petites).

A la fin de la deuxième étape, nous avons N − 2 classes pour


N individus.

Ce processus continue jusqu’à ce qu’il ne reste plus qu’une


seule classe. En d’autres termes, toutes les classes finissent, en
fin d’algorithme par ne constituer qu’une seule classe (1 classe
pour N individus).

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Principe de la classification hiérarchique


Soit un ensemble avec 9 éléments : a, b, c, d, e, f, g, h, i.
Supposons que la CHA a produit la suite de partitions suivante :
- niveau 0 abcdefghi
- niveau 1 a b c d (e f) (g h) i
- niveau 2 (a b d) c (e f) (g h) i
- niveau 4 (a b d c) (e f g h) i
- niveau 5 (a b c d e f g h i)

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Choix des variables

Les variables qui caractérisent les individus sont, généralement,


continues.
Exemple : les âges, des salaires, des chiffres d’affaires, des
volumes de ventes, etc.

L’utilisation de données ordinales est également acceptée


comme des indices de satisfaction (échelle de 1 à 7, par
exemple).

Pour le cas de variables nominales, on ne peut utiliser la


métrique euclidienne pour rendre compte de la proximité des
individus car elle repose sur des considérations de continuité.
Nous devrons choisir une autre métrique plus adaptée à ce
type de variables catégorielles (l’Analyse des Correspondances
Multiples).
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Choix des variables

Lors de la présélection, il est aussi préférable de ne pas prendre


toutes les variables mais seulement de ne sélectionner que
celles étant jugés pertinentes.
On fait souvent recours à une Analyse en Composantes
Principales afin de regrouper les variables contenant les mêmes
informations.
,→ L’ACP permet ainsi d’extraire des facteurs qui ont l’avantage
de comporter des informations différentes les uns des autres.
Ces facteurs ou composantes peuvent alors être utilisées à la
place des variables de départ pour la Classification
Hiérarchique. Ils possèdent des propriétés très intéressantes
puisqu’ils sont
∗ linéairement indépendants donc, non corrélés,
∗ sur une même échelle de mesure (continue).

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Le choix de la métrique

L’utilisateur est confronté à trois questions :

Quelles types de variables doivent être prises en compte, et


donc, quelle métrique doit être choisie pour mesurer la
distance entre les individus ?

Quelle méthode doit être choisie pour regrouper les individus


ou classes ?

Doit-on opérer à des transformations préalables des variables ?

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Le choix de la métrique

Pour les variables continues, on utilise traditionnellement une


distance euclidienne car facile à comprendre et facile à
calculer :
0
d2M (k, l) = (xk − xl )M(xk − xl )
où M = I ou M = V−1 est la matrice de variance covariance.
SPSS propose un grand nombre de distances plus ou moins
utilisées. Nous pouvons citer :
∗ le coefficient de corrélation de Pearson,
∗ Cosinus,
∗ Distance de Tchebycheff, etc ...,

Pour les variables nominales, on utilise une distance du Chi2.


La Chi2 est à la base de nombreuses techniques statistiques
comme l’Analyse des Correspondances.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Distances pour les données quantitatives

Distance euclidienne
0
d2M (k, l) = (xk − xl )M(xk − xl )

où M = I ou M = V−1 est la matrice de variance covariance.

Distance de Minkowsky
 1
p λ
X
2 λ
dM (k, l) =  | xkj − xlj | 
j=1

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Distances pour les données qualitatives


Distance du Chi2 (χ2 ) : tableau de contingence

X \Y 1 ··· j ··· J Ensemble


1 n11 ··· n1j ··· n1J n1
.. .. .. .. .. .. ..
. . . . . . .
k nk1 ··· nkj ··· nkJ nk
.. .. .. .. .. .. ..
. . . . . . .
l nl1 ··· nlj ··· nlJ nl
.. .. .. .. .. .. ..
. . . . . . .
K nK1 ··· nKj ··· nKJ nK
Ensemble n1 ··· nj ··· nJ n
 2
nkj nlj
J
X nk − nl
d2M (k, l) = nj
j=1 n

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Indice de similarité pour les tableaux binaires

a= nombre de fois où xkj = xlj = 1


b= nombre de fois où xkj = 1 et xlj = 0
c= nombre de fois où xkj = 0 et xlj = 1
d= nombre de fois où xkj = xlj = 0

a+b+c+d=n

a
Indice de Jaccard : d1 (k, l) = (a+b+c)
a+d
Indice de Solak : d3 (k, l) = (a+b+c+d)
|ad−bc|
Indice de Pearson : d6 (k, l) = [(a+b)(c+d)(a+c)(b+d)]2

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Standardisation des variables


Lorsque le nombre de variables devient conséquent, la probabilité
d’avoir des échelles différentes augmente ce qui crée des biais très
dommageables lors du calcul de distances. C’est la raison pour
laquelle il convient de ramener toutes les variables sur une même
échelle de mesure.
La technique classique est de standardiser les variables. En d’autres
termes, cette opération consiste à soustraire à chaque valeur la
moyenne de la variable, que l’on divise, ensuite, par l’écart type.
SPSS propose également d’autres méthodes de standardisation
comme de normer les valeurs entre 0 et 1 ou 1 et +1. Il est, en tout
cas, très difficile de savoir quelle méthode est la meilleure.
m ces techniques de standardisation ne sont pas à appliquer
systématiquement. Si on applique une classification par
exemple sur des variables ordinales (indices de satisfaction), il
est déconseillé de réaliser cette opération car cela risquerait de
réduire l’influence de certaines variables discriminantes.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Choix de la méthode

Sur quel critère repose le regroupement des individus en


classes ?
,→ SPSS propose 7 méthodes dites «d’agrégation»

Pouquoi autant de méthodes proposées par SPSS ?


,→ car lors du calcul des distances entre deux classes qui
comprennent plusieurs individus, il existe plusieurs possibilités
en matière de choix de points de référence de la classe :
→ On peut se baser sur le centre des classes.
→ On peut prendre en compte le nombre d’individus par classe et
donc obtenir une moyenne pondérée.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Stratégies d’agrégation

On appelle stratégie d’agrégation, la façon d’apprécier la proximité


entre deux classes C1 et C2 , au cours des agrégations successives
qui se réalisent lors de la construction de la hiérarchie.
La figure suivante présente deux exemples de méthodes
d’agrégation : l’agrégation selon le saut minimum et l’agrégation
selon le diamètre

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Stratégies d’agrégation

1. Méthode d’agrégation selon le saut minimum (Single Linkage ou


Nearest Neighbor) :
Cette méthode calcule les distances entre les points pour regrouper
les classes dont les distances entre les points sont les plus petites.
Elle se base sur la stratégie d’agrégation du lien minimum (le plus
proche voisin) :

D(C1 , C2 ) = M
| {zin} d(x, y)
x∈C1 ety∈C2

,→ Produit un phénomène de «chaînage» : Il suffit que deux


points, même éloignés, soient reliés par une suite de points qui
soient l’un «proche» de son suivant, pour que ces deux points
soient considérés comme «proches».
,→ Inconvénient : Incapacité de différencier des classes proches

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Stratégies d’agrégation

2. La méthode d’agrégation suivant le diamètre (Complete


Linkage ou Furthest Neighbor)
Cette méthode prend la démarche inverse, c’est-à-dire qu’une
fusion entre deux classes s’opère lorsque les distances entre
deux points de deux classes différentes sont les plus éloignées.
Elle se base sur la stratégie d’agrégation du lien maximum
(diamètre, complete linkage)

D(C1 , C2 ) = M
| {zax} d(x, y)
x∈C1 ety∈C2

Ces deux premières méthodes d’agrégation utilisent seulement le


rang. Elles sont relativement insensibles aux valeurs extrêmes.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Stratégies d’agrégation
3. La méthode d’agrégation suivant la distance moyenne entre les
classes (Between-groups Average Linkage ou Baverage)
Le principe de cette méthode est de prendre en compte une moyenne
de distances entre les classes, pour chaque individu. Elle se base sur
la stratégie d’agrégation du lien moyen (Between group method)
1 X
D(C1 , C2 ) = d(x, y)
card(C1 )card(C2 )
x∈C1 ety∈C2

Cette méthode possède des propriétés intéressantes mais son


inconvénient est qu’elle est influencée par les valeurs extrêmes.

4. Une variante de la méthode d’agrégation 3. consiste à minimiser


l’indice du lien moyen calculé sur toutes les intra-distances de la
classe union :
,→ La méthode d’agrégation suivant la distance moyenne dans les
classes (Within group method)
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Stratégies d’agrégation

5. La méthode d’agrégation suivant les barycentres (centroïds)


Pour cette méthode le point de référence correspond à la
moyenne des points des classes. Puis, les distances sont
calculées à partir de ces moyennes qui vont représenter les
classes :
D(C1 , C2 ) = d(g1 , g2 )
où g1 et g2 sont respectivement les barycentres de C1 et C2 .
Cette technique est assez robuste et peu influencée par les
valeurs extrêmes.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Stratégies d’agrégation

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Stratégies d’agrégation

6. La technique d’agrégation selon la méthode de Ward

Les propriétés de cette méthode sont assez proches de la


méthode des distances moyennes entre les classes. Son
approche repose sur la décomposition de la variance.
Une variance comporte 2 éléments : une partie qui explique les
différences entre les classes (appelée variance inter classe ou
expliquée) et une autre qui relate les différences dans les
groupes (variance intra classe ou résiduelle).
Le critère de Ward regroupe les classes telle que la variance
inter groupe reste la plus grande (significatif de classes
éloignées les unes des autres) et la variance intra groupe la
plus petite (les classes doivent être homogènes).

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Stratégies d’agrégation
6. La technique d’agrégation selon la méthode de Ward

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Stratégies d’agrégation

6. La technique d’agrégation selon la méthode de Ward


Cette méthode se base sur la stratégie d’agrégation de Ward
(variance minimum) :
wC1 wC2
D(C1 , C2 ) = d(g1 , g2 )
wC1 + wC2

où wCi représente le poids de la classe Ci et gi le centre de


gravité de de la classe Ci (i = 1, 2). le centre de gravité g de
la classe union obtenue est donnée par
wC1 g1 + wC2 g2
g=
wC 1 + wC 2

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Démarche à suivre pour la classification hiérarchique

1. à partir du tableau de données T choisir un indice de


dissimilarité (la métrique) d sur les individus représentant les
associations deux à deux des individus.

2. Choisir une stratégie d’agrégation D sur les classes qui permet


d’agréger les classes les plus «proches».
3. Construction de la hiérarchie de partitions :
∗ au départ, on part de la partition dont les classes sont réduites
à un individu par classe.
∗ à l’étape t + 1, parmi les classes obtenues à l’étape t, on
agrège celles qui soient les plus proches au sens de D.
∗ on recommence alors l’étape précédente jusqu’à obtenir une
partition en une seule classe.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Pour la mise en oeuvre de la classification hiérarchique, nous allons


utiliser les données de la table "EchangesExterieurs" représentant les
échanges commerciaux internationaux du maroc selon : les
Investissement, les Recettes voyages, les Recettes MRE, les Importations
et les Exportations.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Etude graphique

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Choix de la méthode

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Choix de la métrique

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Standardisation des variables

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Graphiques

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Statistiques

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Chaîne des agrégations

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Chaîne des agrégations

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Diagramme des Stalactites

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Arbre Hiérarchique

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Arbre Hiérarchique


Si on choisit de faire une classification en trois classes, on a
∗ Classe 1 : Autres.
∗ Classe 2 : France et Espagne.
∗ Classe 3 : Emirates Arabes Unies, Chine, Kowait, Belgique,
GB, Saoudi-Arab, Allemagne, USA, Pays-Bas, Italie, Suède,
Tunisie, Finlande, Canada, Portugal, Autriche, Japon, Irlande,
Norvege, Danemark.

Il est important, à ce niveau, de faire appel à notre connaissance des


informations contenues dans le fichier pour pouvoir donner un sens
aux classes trouvées car il ne suffit pas de trouver des classes encore
faut-il leur donner une définition.
Comme on est en train d’utiliser une technique statistique dont
l’objectif est de décrire une réalité, le choix du nombre de classes est
juste à partir du moment où on a pu leur donner un sens réel.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Histogramme des indices de niveau

Un des premiers outils qu’on peut utiliser en complément du


Dendogramme est un graphique qui représente l’évolution de
la perte d’inertie inter-classes tout au long du processus de la
classification.

L’idée est de basculer dans le tableau "Chaînes d’agrégation"


les valeurs des coefficients vers un diagramme interactif en
batôns.

Pour se faire, dans le cadre de cette manipulation, on doit


supprimer une certain nombre de colonne superflues du tableau
"Chaînes d’agrégation".

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Histogramme des indices de niveau

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Histogramme des indices de niveau

L’histogramme des indices de niveau peut se lire de la droite vers la


gauche. Plus les classes deviennent différentes les unes des autres,
plus les batôns deviennent importants.

A en juger les derniers batôns, on constate qu’on a au moins deux


classes significativement différentes (le dernier batôn représente la
fusion des deux dernières classes).

Un découpage en 3 classes semble être une typologie acceptable


même si une 4ème classe pourrait être éventuellement considérée.

Il est possible d’obtenir le résultat de ce découpage dans la feuille


des résultats SPSS en demandant, dans la boîte de dialogue de
Classification hiérarchique, bôton Statistiques, une partition en 3
classes.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Histogramme des indices de niveau

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Histogramme des indices de niveau

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Histogramme des indices de niveau

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des résultats : Histogramme des indices de niveau

En plus des informations récupérées dans la fenêtre des


résultats, SPSS crée une nouvelle variable dans l’éditeur de
données qu’il a appelé CLUS3_1 (3 pour le nombre de classes
choisi et 1 pour analyse numéro 1, si on relance une deuxième
l’analyse, la variable sera dupliquée et s’appellera CLUS3_2).
La composition des trois classes obtenues est la suivante :
∗ Classe 1 : Autres.
∗ Classe 2 : France et Espagne.
∗ Classe 3 : Emirates Arabes Unies, Chine, Kowait, Belgique,
GB, Saoudi-Arab, Allemagne, USA, Pays-Bas, Italie, Suède,
Tunisie, Finlande, Canada, Portugal, Autriche, Japon, Irlande,
Norvege, Danemark.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des classes obtenues avec un cube OLAP

Il s’agit de simples tableaux qui permettent de décrire chaque classe. Par


exemple, on va construire un tableau contenant les montants moyens par
classe des échanges commerciaux internationnaux du Maroc. Pour cela, il
faut commencer par définir les modalités de la variable CLUS3_1 :

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des classes obtenues avec un Cube OLAP

Ensuite, utiliser le Cube OLAP de SPSS :

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des classes obtenues avec un Cube OLAP

Ensuite, utiliser le Cube OLAP de SPSS :

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Interprétation des classes obtenues avec un Cube OLAP

Faire pivoter Cube OLAP obtenu de telle sorte à ce que les statistiques
apparaissent en strates et que la variable CLUS3_1 en colonnes :

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Validation des résultats d’une classification

Il existe plusieurs méthodes permettant de confirmer/infirmer


les résultats d’une classification hiérarchique ou non.
L’idée est d’utiliser une technique dite supervisée où la variable
issue de la classification (Clus3_1) correspond à la variable
endogène et les autres variables du modèle sont les variables
exogènes (explicatives) :
,→ l’analyse discriminante
,→ la régression logistique

Ces techniques permettent non seulement de valider des


résultats mais pourront également mesurer le pouvoir
discriminant des variables prises en compte. Par exemple,
savoir quelles sont les variables qui ont contribué à classer les
individus.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Validation des résultats d’une classification

Une simple analyse de variance peut donner une idée du pouvoir


discriminant des variables.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Classification sur des coordonnées factorielles

Dans certaines situations, il peut être utile et plus rigoureux de


procéder à une Analyse en Composantes Principales avant une
Classification. La raison principale est que les variables issues
de l’ACP possèdent des propriétés très intéressantes (non
corrélées, quasi normaux, etc).
Dans ce cas, il est important de noter :
∗ Par défaut, SPSS produit une ACP normée. Il convient donc
de dé-normaliser les facteurs avant de réaliser une classification
en multipliant chaque facteur par la racine carrée de leur
valeur propre.
∗ La standardisation qui consistait à centrer et réduire les
variables n’est plus nécessaire lors d’une classification sur des
coordonnées factorielles.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Classification par Nuées dynamiques

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Principe

Les techniques de classification sont très coûteuses en temps et en


volume de calcul. La procédure K-Means de SPSS propose les
mêmes résultats généraux de la classification hiérarchique mais
utilise moins de ressources.

D’une façon générale, on utilise la classification en nuées


dynamiques lorsque l’on a des fichiers de données contenantt plus
de 200 observations. Pour des petits fichiers de données, on utilise
davantage la classification hiérarchique.

L’algorithme utilisé dans la procédure des nuées dynamiques est


celui des barycentres. Un individu est assigné à une classe à partir
du moment où la distance qui le relie au barycentre de la classe est
minimale. Cette procédure dépend essentiellement de l’initialisation
du problème.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Principe

Soit, on connaît déjà les centres de classe (les barycentres), et l’on


va introduire l’information dans l’algorithme. Il est fréquent
d’utiliser cette méthode lorsque l’on a un dessin de classification et
l’on souhaite intégrer de nouveaux individus
,→ Pour cela, on utilise souvent les résultats de la classification
hiérarchique pour récupérer les classes. Puis on calcule la
moyenne des variables, dans chaque classe, qui déterminera le
barycentre du groupe considéré.

Soit, on ne connaît pas le centre des classes, auquel cas,


l’algorithme va les estimer de lui-même.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus


Dans la cas où les centres de classe sont connus, la classification par
nuées dynamiques est utilisé lorsqu’on a des nouveaux individus
qu’on veut intégrer dans les classes connues.
Pour illusrer ce cas, on va utiliser les données de la table
"Eaux_Minérales" où les variables sont la composition chimique
(Bicarbonate, Sulfate, Chlore, Calcium, Magnésium, Sodium) pour
plusieurs marques d’eaux minérales.
L’exercice consiste à
∗ faire dans un premier temps, une classification hiérarchique de
ces eaux minérales selon leur composition chimique.
∗ ensuite, en utilisant le fichier "Eaux_Minérales_Maroc"
contenant aussi la composition chimique de plusieurs marques
d’eaux marocaines, l’objectif est d’utiliser la méthode de
classification par nuées dynamiques pour classer ces eaux
minérales marocaines dans les classes obtenues précédemment
avec la classification hiérarchique.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Le diagramme en batôns de la chaîne des agrégations et le


dendrogramme nous permet de déterminer l’existence de 3
classes significatives :
∗ Classe 1 : Aix, Evi, Tho et Cay.
∗ Classe 2 : Spa, Vil, Bec, Cri, Rib, Ver, et Lau.
∗ Classe 3 : Cha, Cyr, Hip, Fer, Per et Oge.
∗ Classe 4 : Ond et Vit.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus


D’après les résultats du Cub OLAP, on peut interpréter ces trois
classes comme suit :
∗ Classe 1 : les eaux minérales caractérisées par de forts taux de
Bicarbonate et de Magnésium avec de faibles taux de Chlore et
de Sulfate.
∗ Classe 2 : les eaux minérales avec des plus faibles taux en
composantes chimiques (se sont des eaux minérales qui
peuvent considérées relativement "légères").
∗ Classe 3 : les eaux minérales caractérisées par des taux les
plus élevés de Chlore et de Sodium avec de faibles taux de
Sulfate et de Magnésium.
∗ Classe 4 : les eaux minérales caractérisées par des taux
largement élevés de Sulfate, de Calcium (par rapport aux autres
classes), les plus élevé taux de Bicarbonate et de Magnésium
avec le taux le plus faible de Sodium (se sont des eaux
minérales qui peuvent être qualifiées relativement "lourdes").
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Un centre de classe n’est rien d’autre que la moyenne de la


classe.

Afin de récupérer le centre de classe de toutes les variables


pour chaque classe, nous allons agréger le fichier
"Eaux_Minérales" en prenant, comme critère d’agrégation, la
variable définissant les groupes et comme fonction
d’agrégation, la moyenne des variables.

N.B. : La variable Critère d’agrégation doit, impérativement,


être nommée «Cluster_» pour que sa prise en compte dans la
procédure K-means Cluster se déroule normalement.

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

On note que l’aggrégation s’effectue sur les valeurs standardisées


des variables et non pas sur les valeurs brutes.

Pour la classification par nuées dynamiques, on n’a pas la possibilité


de standardiser les valeurs variables directement avec la boite de
dialogue comme lors de la classification hiérarchique.

Cependant, on peut obtenir les variables contenant les valeurs


standardisées avec SPSS à partir de :
Analyse −→ Statistiques descriptives −→ Descriptives
,→ Les variables obtenues portent les noms des variables de départ
précédés d’un "Z".

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Pour réaliser une classification par nuées dynamiques en


considérant le cas où les centres des classes sont connus, on va
utiliser les données de la table "Eaux_Minérales_Maroc"
contenant la composition chimique de plusieurs marques
d’eaux minérales marocaines.

L’objectif est de faire une classification de ces eaux minérales


(4 classes) en prenant pour les centres de classe initiaux ceux
récupérés suite à la classification hiérarchique appliquée
précédemment en utilisant les données de la table
"Eaux_Minérales".

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont connus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont inconnus

Dans la plupart des cas, on ne dispose pas d’informations


concernant les centres des classe. Par conséquent, il est nécessaire
de les estimer.

L’algorithme utilisé par SPSS est itératif : si l’on souhaite une


classification en k classes homogènes, l’algorithme va sélectionner
les k individus les plus éloignés en les considérant comme les
barycentres temporaires des classes.

Ces barycentres vont être mis à jour dans un processus itératif. Un


individu va remplacer le centre de classe duquel il est le plus proche
dans les deux cas suivants :
∗ La plus petite distance qui le relie à un centre est plus grande
que la distance qui sépare les centres les plus proches.
∗ la plus petite distance qui le relie à un centre est plus grande la
plus petite distance qui sépare ce centre aux autres.
Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don
Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont inconnus

Une fois que l’on a des centres de classe, le processus itératif va


débuter et les mettre à jours. Toutes les observations vont être
affectées à la classe dont le centre est le plus proche.

Ainsi, les valeurs moyennes des variables seront calculées à partir


des observations qui ont été affectées à chaque classe et des
observations qui onte servi de centres de classes initiaux.

Les itérations cessent à partir du moment où le calcul de nouveaux


centres n’apporte plus rien. Les centres ainsi calculés vont alors
servir pour classer les individus.

A titre d’exemple, on va utiliser les données de la table


"Eaux_Minérales". Les résultats obtenus de la classification par
nuées dynamiques des eaux minérales de cette table en considérant
4 classes sont affichés ci-dessous :

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont inconnus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont inconnus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don


Introduction
Principe
la classification hiérarchique
Mise en oeuvre avec SPSS
Classification par Nuées dynamiques

Cas où les centres des classes sont inconnus

Mohammed El Haj Tirari Méthodes Avancées d’Analyse de Don

Vous aimerez peut-être aussi