Université de Tunis-Elmanar
Institut Supérieur d’Informatique
Cours : Machine Learning
Semestre I : L3CS
Chapitre 4: Classification Ascendante
Hiérarchique
présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Deux familles de méthodes
Méthodes Méthodes
Descriptives Prédictives
Arbres de Décisions
Analyse en
Composantes
Principales ACP
Analyse Discriminante
Méthodes des Centres
Mobiles Régression Linéaire
K-means
Régression Logistique
Classification
Ascendante
Hiérarchique
Réseaux de Neurones
2
Objectif des techniques
descriptives
visent à mettre en évidence des informations présentes mais cachées
par le grand volume des données
il n’y a pas de variable « cible » à prédire
projection du nuage de points sur un espace de dimension inférieure
pour obtenir une visualisation de l’ensemble des liaisons entre variables
et individus tout en minimisant la perte d’information (ACP)
trouver dans l’espace de travail des groupes homogènes d’individus
ou de variables
détection d’associations entre des invidus
3
Objectif des techniques de
classification
Distinguer des sous-ensembles (ou classes) distincts dans la population de départ.
Regrouper les objets en groupes, classes, familles, segments, clusters, de sorte que :
Tous deux objets d’un même groupe se ressemblent le plus.
Tous deux objets de groupes différents se distinguent le plus.
Le nombre de groupes est parfois fixé.
la classification se distingue du classement par le fait que les critères de classification ne sont pas connus a
priori (avant étude de la population). C’est la population qui détermine les critères.
La classification est le plus souvent un préalable à d’autres opérations de data mining.
La classification permet de limiter le nombre de variables par sous-ensemble.
La classification permet de rechercher des corrélations propres à chaque classe et donc plus précises.
il n’existe pas une solution unique au problème de la classification. Autrement dit, il n’y a pas « LA » bonne
classification, mais plusieurs classifications possibles.
visent à synthétiser des informations présentes complexes mais cachées par le volume des données
il n’y a pas de variable « cible » à prédire
4
Techniques de Classification
Par partitionnement : Deux classes sont toujours disjointes.
Principe : partitionnement des objets et évaluation des partitions.
Hiérarchiques : Deux classes sont disjointes ou l’une contient
l’autre.
Principe : décomposition hiérarchique d’ensembles d’objets.
Par Densité :
Principe : se base sur une fonction de densité ou de connectivité
5
Classification par
partitionnenement
6
Classification Hiérarchique
7
Classification hiérarchique :
deux approches
Clustering hiérarchique ascendant : CHA (Agglomératif)
Commencer avec les points en tant que clusters individuels.
A chaque étape, grouper les clusters les plus proches
jusqu’à obtenir 1 seul ou k clusters.
Clustering hiérarchique descendant (Divisif) : Commencer
avec 1 seul cluster comprenant tous les points. A chaque
étape, diviser un cluster jusqu’à obtenir des clusters ne
contenant qu’un point ou jusqu’à obtenir k clusters
8
Types de Classification
Par partitionnement : Deux classes sont toujours disjointes.
• Principe : partitionnement des objets et évaluation des partitions.
Hiérarchiques : Deux classes sont disjointes ou l’une contient l’autre.
• Principe : décomposition hiérarchique d’ensembles d’objets.
Par Densité :
• Principe : se base sur une fonction de densité ou de connectivité
9
Classification Ascendante
Hiérarchique
Principe : Chaque point ou cluster est progressivement absorbé par le
cluster le plus proche.
Algorithme
• Initialisation :
– Chaque individu est placé dans son propre cluster.
– Calcul de la matrice de ressemblance M entre chaque couple de clusters (ici les points)
• Répéter
– Sélection dans M des deux clusters les plus proches Ci et Cj .
– Fusion de Ci et Cj pour former un cluster Cg.
– Mise à jour de M en calculant la ressemblance entre Cg et les clusters existants.
• Jusqu’à fusion des 2 derniers clusters.
10
Structure des données à classer
Soit une matrice rectangulaire dont :
– lignes = individus
– colonnes = variables
Cette structure permet de classer individus ou variables
Soit une matrice carrée de similarités, distances entre :
– Individus
– variables (par exemple : la matrice des corrélations)
Cette structure permet aussi de classer individus ou
variables
11
Algorithme
Entrée : tableau de données (X)
Sortie : Indicateur de partition des individus
Calcul du tableau des distances entre individus
Chaque individu constitue un groupe (classe)
REPETER
Détecter les 2 groupes les plus proches
Les agréger pour n’en former qu’un seul
JUSQU’À tous les individus forment un seul groupe
Identifier le nombre adéquat de groupes
Procéder au partitionnement
Datamining : 2éme IDL 12
Dendrogramme
Durant les étapes d’un algorithmes de classification hiérarchique, on est en
train de construire un dendrogramme.
Le dendrogramme indique les objets et classes qui ont été fusionnées à
chaque itération.
Le dendrogramme indique aussi la valeur du critère choisi pour chaque
partition rencontrée
Il donne un résumé de la classification hiérarchique
Chaque palier correspond à une fusion de classes
Le niveau d’un palier donne une indication sur la qualité de la fusion
correspondante
Toute coupure horizontale correspond à une partition
Datamining : 2éme IDL 13
Exemple de dendrogramme
On « coupe » l'arbre là où les branches sont longues
6
À un niveau de 5, il ne reste que 2 classes
5
3
Si on fixe un niveau de 3 (si on exige une distance
2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1
Datamining : 2éme IDL 14
Exemple de dendrogramme
la hauteur d’une branche est proportionnelle à la perte d’inertie interclasse
6
À un niveau de 5, il ne reste que 2 classes
5
3
Si on fixe un niveau de 3 (si on exige une distance
2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1
Datamining : 2éme IDL 15
Théoréme de Huyghens
Inertie Totale Inertie inter-classes Inertie intra-classes
La coupure au niveau du dendrogramme se fait lorsque les branches sont les plus
longues. Donc, lorsque l’inertie inter-classes est maximale.
Datamining : 2éme IDL 16
Simulation CAH
n individus / n classes
3
2
4
5
1 2 3 4 5
On construit la matrice de distance entre les n éléments
et on regroupe les 2 éléments les plus proches
Datamining : 2éme IDL 17
Simulation CAH
n -1 classes
3
2
4
5
1 2 3 4 5
Datamining : 2éme IDL 18
Simulation CAH
n -2 classes
1
3
2
4
5
1 2 3 4 5
Datamining : 2éme IDL 19
Simulation CAH
3
2
4
5
n -3 classes
1 2 3 4 5
Datamining : 2éme IDL 20
Simulation CAH
3
2
4
n -4 classes
5
1 2 3 4 5
Datamining : 2éme IDL 21
Simulation CAH
1 2 classes
3
2
4
5
1 2 3 4 5
classes1 classes2
Datamining : 2éme IDL 22
Simulation CAH
1 3 classes
3
2
4
5
1 2 3 4 5
classes1 classes2 classes3
Datamining : 2éme IDL 23
Avantages CAH
Permet de classer : des individus, des variables, des moyennes de
classes obtenues en sortie d’un algorithme des centres mobiles
si on classe des moyennes, on améliore les résultats si on connaît non
seulement les moyennes des classes, mais aussi les inerties intraclasse
et les effectifs des classes
S’adapte aux diverses formes de classes, par le choix de la distance
Permet de choisir le nombre de classes de façon optimale, grâce à des
indicateurs de qualité de la classification en fonction du nombre de
classes
Datamining : 2éme IDL 24
Exemple CAH
Datamining : 2éme IDL 25
Exemple CAH
Datamining : 2éme IDL 26
Exemple CAH
Coupure du dendrogramme au plus
grand écart entre deux centres de
classes
Datamining : 2éme IDL 27