0% ont trouvé ce document utile (0 vote)
169 vues27 pages

Classification Hiérarchique Ascendante

Le document décrit la méthode de classification ascendante hiérarchique. Il explique le principe de cette méthode de classification hiérarchique ainsi que son algorithme. Le document présente également la structure des données à classer et donne un exemple de simulation de la méthode.

Transféré par

TAHA GUESMI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
169 vues27 pages

Classification Hiérarchique Ascendante

Le document décrit la méthode de classification ascendante hiérarchique. Il explique le principe de cette méthode de classification hiérarchique ainsi que son algorithme. Le document présente également la structure des données à classer et donne un exemple de simulation de la méthode.

Transféré par

TAHA GUESMI
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Tunis-Elmanar

Institut Supérieur d’Informatique

Cours : Machine Learning


Semestre I : L3CS

Chapitre 4: Classification Ascendante


Hiérarchique
présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Deux familles de méthodes

Méthodes Méthodes
Descriptives Prédictives
Arbres de Décisions

Analyse en
Composantes
Principales ACP
Analyse Discriminante

Méthodes des Centres


Mobiles Régression Linéaire
K-means

Régression Logistique
Classification
Ascendante
Hiérarchique
Réseaux de Neurones

2
Objectif des techniques
descriptives
 visent à mettre en évidence des informations présentes mais cachées
par le grand volume des données
 il n’y a pas de variable « cible » à prédire

 projection du nuage de points sur un espace de dimension inférieure


pour obtenir une visualisation de l’ensemble des liaisons entre variables
et individus tout en minimisant la perte d’information (ACP)
 trouver dans l’espace de travail des groupes homogènes d’individus
ou de variables

 détection d’associations entre des invidus

3
Objectif des techniques de
classification
 Distinguer des sous-ensembles (ou classes) distincts dans la population de départ.
 Regrouper les objets en groupes, classes, familles, segments, clusters, de sorte que :
 Tous deux objets d’un même groupe se ressemblent le plus.
 Tous deux objets de groupes différents se distinguent le plus.
 Le nombre de groupes est parfois fixé.
 la classification se distingue du classement par le fait que les critères de classification ne sont pas connus a
priori (avant étude de la population). C’est la population qui détermine les critères.
 La classification est le plus souvent un préalable à d’autres opérations de data mining.
 La classification permet de limiter le nombre de variables par sous-ensemble.
 La classification permet de rechercher des corrélations propres à chaque classe et donc plus précises.
 il n’existe pas une solution unique au problème de la classification. Autrement dit, il n’y a pas « LA » bonne
classification, mais plusieurs classifications possibles.
 visent à synthétiser des informations présentes complexes mais cachées par le volume des données
 il n’y a pas de variable « cible » à prédire

4
Techniques de Classification

 Par partitionnement : Deux classes sont toujours disjointes.

Principe : partitionnement des objets et évaluation des partitions.

 Hiérarchiques : Deux classes sont disjointes ou l’une contient


l’autre.

Principe : décomposition hiérarchique d’ensembles d’objets.

 Par Densité :

Principe : se base sur une fonction de densité ou de connectivité

5
Classification par
partitionnenement

6
Classification Hiérarchique

7
Classification hiérarchique :
deux approches
 Clustering hiérarchique ascendant : CHA (Agglomératif)
Commencer avec les points en tant que clusters individuels.
A chaque étape, grouper les clusters les plus proches
jusqu’à obtenir 1 seul ou k clusters.

 Clustering hiérarchique descendant (Divisif) : Commencer


avec 1 seul cluster comprenant tous les points. A chaque
étape, diviser un cluster jusqu’à obtenir des clusters ne
contenant qu’un point ou jusqu’à obtenir k clusters

8
Types de Classification

 Par partitionnement : Deux classes sont toujours disjointes.

• Principe : partitionnement des objets et évaluation des partitions.

 Hiérarchiques : Deux classes sont disjointes ou l’une contient l’autre.

• Principe : décomposition hiérarchique d’ensembles d’objets.

 Par Densité :

• Principe : se base sur une fonction de densité ou de connectivité

9
Classification Ascendante
Hiérarchique
 Principe : Chaque point ou cluster est progressivement absorbé par le
cluster le plus proche.
 Algorithme

• Initialisation :
– Chaque individu est placé dans son propre cluster.
– Calcul de la matrice de ressemblance M entre chaque couple de clusters (ici les points)

• Répéter
– Sélection dans M des deux clusters les plus proches Ci et Cj .
– Fusion de Ci et Cj pour former un cluster Cg.
– Mise à jour de M en calculant la ressemblance entre Cg et les clusters existants.

• Jusqu’à fusion des 2 derniers clusters.


10
Structure des données à classer

 Soit une matrice rectangulaire dont :


– lignes = individus
– colonnes = variables
 Cette structure permet de classer individus ou variables
 Soit une matrice carrée de similarités, distances entre :
– Individus
– variables (par exemple : la matrice des corrélations)
 Cette structure permet aussi de classer individus ou
variables

11
Algorithme
Entrée : tableau de données (X)
Sortie : Indicateur de partition des individus
Calcul du tableau des distances entre individus
Chaque individu constitue un groupe (classe)
REPETER
Détecter les 2 groupes les plus proches
Les agréger pour n’en former qu’un seul
JUSQU’À tous les individus forment un seul groupe
Identifier le nombre adéquat de groupes
Procéder au partitionnement

Datamining : 2éme IDL 12


Dendrogramme
 Durant les étapes d’un algorithmes de classification hiérarchique, on est en
train de construire un dendrogramme.
 Le dendrogramme indique les objets et classes qui ont été fusionnées à
chaque itération.
 Le dendrogramme indique aussi la valeur du critère choisi pour chaque
partition rencontrée
 Il donne un résumé de la classification hiérarchique
 Chaque palier correspond à une fusion de classes
 Le niveau d’un palier donne une indication sur la qualité de la fusion
correspondante
 Toute coupure horizontale correspond à une partition

Datamining : 2éme IDL 13


Exemple de dendrogramme
On « coupe » l'arbre là où les branches sont longues
6
À un niveau de 5, il ne reste que 2 classes
5

3
Si on fixe un niveau de 3 (si on exige une distance
2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1

Datamining : 2éme IDL 14


Exemple de dendrogramme
la hauteur d’une branche est proportionnelle à la perte d’inertie interclasse
6
À un niveau de 5, il ne reste que 2 classes
5

3
Si on fixe un niveau de 3 (si on exige une distance
2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1

Datamining : 2éme IDL 15


Théoréme de Huyghens

Inertie Totale Inertie inter-classes Inertie intra-classes

La coupure au niveau du dendrogramme se fait lorsque les branches sont les plus
longues. Donc, lorsque l’inertie inter-classes est maximale.

Datamining : 2éme IDL 16


Simulation CAH
n individus / n classes

3
2
4

5
1 2 3 4 5

On construit la matrice de distance entre les n éléments


et on regroupe les 2 éléments les plus proches

Datamining : 2éme IDL 17


Simulation CAH
n -1 classes

3
2
4

5
1 2 3 4 5

Datamining : 2éme IDL 18


Simulation CAH

n -2 classes
1

3
2
4

5
1 2 3 4 5

Datamining : 2éme IDL 19


Simulation CAH

3
2
4

5
n -3 classes
1 2 3 4 5

Datamining : 2éme IDL 20


Simulation CAH

3
2
4

n -4 classes
5
1 2 3 4 5

Datamining : 2éme IDL 21


Simulation CAH

1 2 classes
3
2
4

5
1 2 3 4 5

classes1 classes2

Datamining : 2éme IDL 22


Simulation CAH

1 3 classes
3
2
4

5
1 2 3 4 5

classes1 classes2 classes3

Datamining : 2éme IDL 23


Avantages CAH
 Permet de classer : des individus, des variables, des moyennes de
classes obtenues en sortie d’un algorithme des centres mobiles
 si on classe des moyennes, on améliore les résultats si on connaît non
seulement les moyennes des classes, mais aussi les inerties intraclasse
et les effectifs des classes
 S’adapte aux diverses formes de classes, par le choix de la distance
 Permet de choisir le nombre de classes de façon optimale, grâce à des
indicateurs de qualité de la classification en fonction du nombre de
classes

Datamining : 2éme IDL 24


Exemple CAH

Datamining : 2éme IDL 25


Exemple CAH

Datamining : 2éme IDL 26


Exemple CAH
Coupure du dendrogramme au plus
grand écart entre deux centres de
classes

Datamining : 2éme IDL 27

Vous aimerez peut-être aussi