0% ont trouvé ce document utile (0 vote)

169 vues27 pages

Classification Hiérarchique Ascendante

Le document décrit la méthode de classification ascendante hiérarchique. Il explique le principe de cette méthode de classification hiérarchique ainsi que son algorithme. Le document présente également la structure des données à classer et donne un exemple de simulation de la méthode.

Transféré par

TAHA GUESMI

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

169 vues27 pages

Classification Hiérarchique Ascendante

Transféré par

TAHA GUESMI

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Tunis-Elmanar

Institut Supérieur d’Informatique

Cours : Machine Learning

Semestre I : L3CS

Chapitre 4: Classification Ascendante

Hiérarchique
présenté par:
Mohamed Sahbi Bahroun
Année Universitaire 2021/2022 1
Deux familles de méthodes

Méthodes Méthodes
Descriptives Prédictives
Arbres de Décisions

Analyse en
Composantes
Principales ACP
Analyse Discriminante

Méthodes des Centres

Mobiles Régression Linéaire
K-means

Régression Logistique
Classification
Ascendante
Hiérarchique
Réseaux de Neurones

2
Objectif des techniques
descriptives
 visent à mettre en évidence des informations présentes mais cachées
par le grand volume des données
 il n’y a pas de variable « cible » à prédire

 projection du nuage de points sur un espace de dimension inférieure

pour obtenir une visualisation de l’ensemble des liaisons entre variables
et individus tout en minimisant la perte d’information (ACP)
 trouver dans l’espace de travail des groupes homogènes d’individus
ou de variables

 détection d’associations entre des invidus

3
Objectif des techniques de
classification
 Distinguer des sous-ensembles (ou classes) distincts dans la population de départ.
 Regrouper les objets en groupes, classes, familles, segments, clusters, de sorte que :
 Tous deux objets d’un même groupe se ressemblent le plus.
 Tous deux objets de groupes différents se distinguent le plus.
 Le nombre de groupes est parfois fixé.
 la classification se distingue du classement par le fait que les critères de classification ne sont pas connus a
priori (avant étude de la population). C’est la population qui détermine les critères.
 La classification est le plus souvent un préalable à d’autres opérations de data mining.
 La classification permet de limiter le nombre de variables par sous-ensemble.
 La classification permet de rechercher des corrélations propres à chaque classe et donc plus précises.
 il n’existe pas une solution unique au problème de la classification. Autrement dit, il n’y a pas « LA » bonne
classification, mais plusieurs classifications possibles.
 visent à synthétiser des informations présentes complexes mais cachées par le volume des données
 il n’y a pas de variable « cible » à prédire

4
Techniques de Classification

 Par partitionnement : Deux classes sont toujours disjointes.

Principe : partitionnement des objets et évaluation des partitions.

 Hiérarchiques : Deux classes sont disjointes ou l’une contient

l’autre.

Principe : décomposition hiérarchique d’ensembles d’objets.

 Par Densité :

Principe : se base sur une fonction de densité ou de connectivité

5
Classification par
partitionnenement

6
Classification Hiérarchique

7
Classification hiérarchique :
deux approches
 Clustering hiérarchique ascendant : CHA (Agglomératif)
Commencer avec les points en tant que clusters individuels.
A chaque étape, grouper les clusters les plus proches
jusqu’à obtenir 1 seul ou k clusters.

 Clustering hiérarchique descendant (Divisif) : Commencer

avec 1 seul cluster comprenant tous les points. A chaque
étape, diviser un cluster jusqu’à obtenir des clusters ne
contenant qu’un point ou jusqu’à obtenir k clusters

8
Types de Classification

 Par partitionnement : Deux classes sont toujours disjointes.

• Principe : partitionnement des objets et évaluation des partitions.

 Hiérarchiques : Deux classes sont disjointes ou l’une contient l’autre.

• Principe : décomposition hiérarchique d’ensembles d’objets.

 Par Densité :

• Principe : se base sur une fonction de densité ou de connectivité

9
Classification Ascendante
Hiérarchique
 Principe : Chaque point ou cluster est progressivement absorbé par le
cluster le plus proche.
 Algorithme

• Initialisation :
– Chaque individu est placé dans son propre cluster.
– Calcul de la matrice de ressemblance M entre chaque couple de clusters (ici les points)

• Répéter
– Sélection dans M des deux clusters les plus proches Ci et Cj .
– Fusion de Ci et Cj pour former un cluster Cg.
– Mise à jour de M en calculant la ressemblance entre Cg et les clusters existants.

• Jusqu’à fusion des 2 derniers clusters.

10
Structure des données à classer

 Soit une matrice rectangulaire dont :

– lignes = individus
– colonnes = variables
 Cette structure permet de classer individus ou variables
 Soit une matrice carrée de similarités, distances entre :
– Individus
– variables (par exemple : la matrice des corrélations)
 Cette structure permet aussi de classer individus ou
variables

11
Algorithme
Entrée : tableau de données (X)
Sortie : Indicateur de partition des individus
Calcul du tableau des distances entre individus
Chaque individu constitue un groupe (classe)
REPETER
Détecter les 2 groupes les plus proches
Les agréger pour n’en former qu’un seul
JUSQU’À tous les individus forment un seul groupe
Identifier le nombre adéquat de groupes
Procéder au partitionnement

Datamining : 2éme IDL 12

Dendrogramme
 Durant les étapes d’un algorithmes de classification hiérarchique, on est en
train de construire un dendrogramme.
 Le dendrogramme indique les objets et classes qui ont été fusionnées à
chaque itération.
 Le dendrogramme indique aussi la valeur du critère choisi pour chaque
partition rencontrée
 Il donne un résumé de la classification hiérarchique
 Chaque palier correspond à une fusion de classes
 Le niveau d’un palier donne une indication sur la qualité de la fusion
correspondante
 Toute coupure horizontale correspond à une partition

Datamining : 2éme IDL 13

Exemple de dendrogramme
On « coupe » l'arbre là où les branches sont longues
6
À un niveau de 5, il ne reste que 2 classes
5

3
Si on fixe un niveau de 3 (si on exige une distance
2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1

Datamining : 2éme IDL 14

Exemple de dendrogramme
la hauteur d’une branche est proportionnelle à la perte d’inertie interclasse
6
À un niveau de 5, il ne reste que 2 classes
5

3
Si on fixe un niveau de 3 (si on exige une distance
2 d’au moins 3 entre objets de classes différentes),
il y a 4 classes
1

Datamining : 2éme IDL 15

Théoréme de Huyghens

Inertie Totale Inertie inter-classes Inertie intra-classes

La coupure au niveau du dendrogramme se fait lorsque les branches sont les plus
longues. Donc, lorsque l’inertie inter-classes est maximale.

Datamining : 2éme IDL 16

Simulation CAH
n individus / n classes

3
2
4

5
1 2 3 4 5

On construit la matrice de distance entre les n éléments

et on regroupe les 2 éléments les plus proches

Datamining : 2éme IDL 17

Simulation CAH
n -1 classes

3
2
4

5
1 2 3 4 5

Datamining : 2éme IDL 18

Simulation CAH

n -2 classes
1

3
2
4

5
1 2 3 4 5

Datamining : 2éme IDL 19

Simulation CAH

3
2
4

5
n -3 classes
1 2 3 4 5

Datamining : 2éme IDL 20

Simulation CAH

3
2
4

n -4 classes
5
1 2 3 4 5

Datamining : 2éme IDL 21

Simulation CAH

1 2 classes
3
2
4

5
1 2 3 4 5

classes1 classes2

Datamining : 2éme IDL 22

Simulation CAH

1 3 classes
3
2
4

5
1 2 3 4 5

classes1 classes2 classes3

Datamining : 2éme IDL 23

Avantages CAH
 Permet de classer : des individus, des variables, des moyennes de
classes obtenues en sortie d’un algorithme des centres mobiles
 si on classe des moyennes, on améliore les résultats si on connaît non
seulement les moyennes des classes, mais aussi les inerties intraclasse
et les effectifs des classes
 S’adapte aux diverses formes de classes, par le choix de la distance
 Permet de choisir le nombre de classes de façon optimale, grâce à des
indicateurs de qualité de la classification en fonction du nombre de
classes

Datamining : 2éme IDL 24

Exemple CAH

Datamining : 2éme IDL 25

Exemple CAH

Datamining : 2éme IDL 26

Exemple CAH
Coupure du dendrogramme au plus
grand écart entre deux centres de
classes

Datamining : 2éme IDL 27

Vous aimerez peut-être aussi

TPInfo
Pas encore d'évaluation
TPInfo
7 pages
Introduction à Crisp-DM et Clustering
Pas encore d'évaluation
Introduction à Crisp-DM et Clustering
23 pages
Cha4 CAH
Pas encore d'évaluation
Cha4 CAH
27 pages
Méthodes d'Apprentissage Non-Supervisées
Pas encore d'évaluation
Méthodes d'Apprentissage Non-Supervisées
65 pages
Classification Hiérarchique et Méthodes
Pas encore d'évaluation
Classification Hiérarchique et Méthodes
5 pages
Modélisation de Bases de Données 2023-2024
100% (1)
Modélisation de Bases de Données 2023-2024
3 pages
Exploitation SQL d'un Data Warehouse
0% (1)
Exploitation SQL d'un Data Warehouse
24 pages
Optimisation des Arbres de Décision
Pas encore d'évaluation
Optimisation des Arbres de Décision
26 pages
IA Appliquée pour Ingénieurs GE
Pas encore d'évaluation
IA Appliquée pour Ingénieurs GE
42 pages
Modélisation d'Objets et Scénarios UML
100% (3)
Modélisation d'Objets et Scénarios UML
18 pages
Passage Du MLD Au MPD
Pas encore d'évaluation
Passage Du MLD Au MPD
3 pages
Systèmes D'exploitation 2
Pas encore d'évaluation
Systèmes D'exploitation 2
43 pages
CAH avec méthode de Ward expliquée
Pas encore d'évaluation
CAH avec méthode de Ward expliquée
5 pages
Arbres de Décision et Algorithme ID3
Pas encore d'évaluation
Arbres de Décision et Algorithme ID3
17 pages
TP 4 Base Polytech
Pas encore d'évaluation
TP 4 Base Polytech
6 pages
Analyse des Règles d'Association en Data Mining
Pas encore d'évaluation
Analyse des Règles d'Association en Data Mining
12 pages
TP 1 Ontologie
Pas encore d'évaluation
TP 1 Ontologie
4 pages
Analyse Factorielle Des Correspondances: Pr. Trabelsi Mohamed Ali, Fsegt 1
Pas encore d'évaluation
Analyse Factorielle Des Correspondances: Pr. Trabelsi Mohamed Ali, Fsegt 1
16 pages
Règles d'Association en Data Mining
Pas encore d'évaluation
Règles d'Association en Data Mining
76 pages
Présentation de La Connaissance Réseaux Sémantiques
Pas encore d'évaluation
Présentation de La Connaissance Réseaux Sémantiques
21 pages
Introduction au Data Mining et ECD
Pas encore d'évaluation
Introduction au Data Mining et ECD
6 pages
Analyse en Composantes Principales
Pas encore d'évaluation
Analyse en Composantes Principales
5 pages
Rapport Kimball Vs Inmon
Pas encore d'évaluation
Rapport Kimball Vs Inmon
2 pages
DS-2-Big Data Et Cloud
Pas encore d'évaluation
DS-2-Big Data Et Cloud
2 pages
Chapitre3 VF
100% (1)
Chapitre3 VF
52 pages
Modélisation avancée des data warehouses
Pas encore d'évaluation
Modélisation avancée des data warehouses
34 pages
Prétraitement des données en data mining
Pas encore d'évaluation
Prétraitement des données en data mining
1 page
Introduction à la modélisation dimensionnelle
Pas encore d'évaluation
Introduction à la modélisation dimensionnelle
43 pages
IAAS
Pas encore d'évaluation
IAAS
17 pages
Subsumption de Cardinalités en Logique
Pas encore d'évaluation
Subsumption de Cardinalités en Logique
4 pages
Analyse en Composantes Principales (ACP)
Pas encore d'évaluation
Analyse en Composantes Principales (ACP)
18 pages
Tutoriel Protégé 5.2: Création d'Ontologie
Pas encore d'évaluation
Tutoriel Protégé 5.2: Création d'Ontologie
1 page
Compilation 2
Pas encore d'évaluation
Compilation 2
20 pages
Analyse des modes d'hébergement en vacances
Pas encore d'évaluation
Analyse des modes d'hébergement en vacances
2 pages
Cours Analyse de Données
Pas encore d'évaluation
Cours Analyse de Données
39 pages
Exercices Afc
Pas encore d'évaluation
Exercices Afc
2 pages
Chap 03 Introduction À l'IA-1
Pas encore d'évaluation
Chap 03 Introduction À l'IA-1
34 pages
Examen TP1
Pas encore d'évaluation
Examen TP1
3 pages
Méthodologie SIREME pour SIRS Spatiaux
100% (1)
Méthodologie SIREME pour SIRS Spatiaux
13 pages
Data Mining Training
Pas encore d'évaluation
Data Mining Training
63 pages
Arbres binaires : concepts et algorithmes
Pas encore d'évaluation
Arbres binaires : concepts et algorithmes
13 pages
Analyse Syntaxique des Grammaires
Pas encore d'évaluation
Analyse Syntaxique des Grammaires
33 pages
TP-K-Means Clustering: Exemple de Resultat Trouve Pour K 2
Pas encore d'évaluation
TP-K-Means Clustering: Exemple de Resultat Trouve Pour K 2
1 page
Analyse BTS IG/SIO : Merise et UML
Pas encore d'évaluation
Analyse BTS IG/SIO : Merise et UML
32 pages
Langages du Web sémantique : XML et RDF
Pas encore d'évaluation
Langages du Web sémantique : XML et RDF
31 pages
Analyse Factorielle: Concepts et Méthodes
Pas encore d'évaluation
Analyse Factorielle: Concepts et Méthodes
15 pages
Introduction aux KNN en Machine Learning
Pas encore d'évaluation
Introduction aux KNN en Machine Learning
8 pages
Concepts de base en langages et automates
Pas encore d'évaluation
Concepts de base en langages et automates
28 pages
Création de Triggers en SGBD SQL
Pas encore d'évaluation
Création de Triggers en SGBD SQL
2 pages
DS - Algo-2019
Pas encore d'évaluation
DS - Algo-2019
1 page
Support de Cours Module ADD Univ Annaba (Tchi Drive)
Pas encore d'évaluation
Support de Cours Module ADD Univ Annaba (Tchi Drive)
104 pages
Introduction au Data Mining et Machine Learning
Pas encore d'évaluation
Introduction au Data Mining et Machine Learning
42 pages
Introduction au Datawarehouse et OLAP
Pas encore d'évaluation
Introduction au Datawarehouse et OLAP
17 pages
Comparaison des arbres de décision : TANAGRA, ORANGE, WEKA
Pas encore d'évaluation
Comparaison des arbres de décision : TANAGRA, ORANGE, WEKA
14 pages
Évaluation des Modèles en Data Mining
Pas encore d'évaluation
Évaluation des Modèles en Data Mining
4 pages
MONDRIAN Jpivot Final
Pas encore d'évaluation
MONDRIAN Jpivot Final
26 pages
Chapitre3 Classification
Pas encore d'évaluation
Chapitre3 Classification
33 pages
Méthodes de Classification et Segmentation
Pas encore d'évaluation
Méthodes de Classification et Segmentation
49 pages
Classification Hiérarchique et Dendrogramme
Pas encore d'évaluation
Classification Hiérarchique et Dendrogramme
17 pages
Propriétés Colligatives en Chimie
Pas encore d'évaluation
Propriétés Colligatives en Chimie
46 pages
Valva DMV-D 5065 11
Pas encore d'évaluation
Valva DMV-D 5065 11
12 pages
Ba 121 GB
Pas encore d'évaluation
Ba 121 GB
44 pages
Qualité de Granulation en Alimentation Animale
Pas encore d'évaluation
Qualité de Granulation en Alimentation Animale
46 pages
Capteur de Cylindre et Pré-chauffage
Pas encore d'évaluation
Capteur de Cylindre et Pré-chauffage
15 pages
La Fiscalité
Pas encore d'évaluation
La Fiscalité
32 pages
Schéma et Calculs d'Embrayage et Frein
Pas encore d'évaluation
Schéma et Calculs d'Embrayage et Frein
4 pages
Tartelettes Dulcey Pécan-Vanille Recette
Pas encore d'évaluation
Tartelettes Dulcey Pécan-Vanille Recette
8 pages
Optique géométrique en biophysique
Pas encore d'évaluation
Optique géométrique en biophysique
12 pages
Importance des arbres dans l'écosystème
Pas encore d'évaluation
Importance des arbres dans l'écosystème
2 pages
Les Roches Metamorphiques
Pas encore d'évaluation
Les Roches Metamorphiques
18 pages
ROUSSELLE Ambre TFE FMV Aout2021 Définitif
Pas encore d'évaluation
ROUSSELLE Ambre TFE FMV Aout2021 Définitif
27 pages
Comprendre le Tétanos : Causes et Traitement
Pas encore d'évaluation
Comprendre le Tétanos : Causes et Traitement
3 pages
JR HF ColorChart - Can
Pas encore d'évaluation
JR HF ColorChart - Can
1 page
Audit Environnemental CFCO 2023
Pas encore d'évaluation
Audit Environnemental CFCO 2023
187 pages
Pratique D'examen 8 - Cle
Pas encore d'évaluation
Pratique D'examen 8 - Cle
3 pages
Chap III Travail Et Energie
Pas encore d'évaluation
Chap III Travail Et Energie
7 pages
Étude de l'érosion à Oued Nafla
Pas encore d'évaluation
Étude de l'érosion à Oued Nafla
131 pages
Calculs de Facture Électrique et Chute de Tension
Pas encore d'évaluation
Calculs de Facture Électrique et Chute de Tension
5 pages
Incoterms Rapport
100% (4)
Incoterms Rapport
14 pages
Comprendre la Sérothérapie
Pas encore d'évaluation
Comprendre la Sérothérapie
14 pages
Fiche Formation Metrologie Des Pressions
Pas encore d'évaluation
Fiche Formation Metrologie Des Pressions
1 page
3-Abdellatif Khazma CV FFFF (Francais.M)
Pas encore d'évaluation
3-Abdellatif Khazma CV FFFF (Francais.M)
5 pages
Eval Debut D Annee Ce1
Pas encore d'évaluation
Eval Debut D Annee Ce1
6 pages
Portes et Valves pour Silos
Pas encore d'évaluation
Portes et Valves pour Silos
12 pages
Carnet de Lecture Thérèse Raquin
Pas encore d'évaluation
Carnet de Lecture Thérèse Raquin
7 pages
Memoire de Magister: Specialite: Genie Civil
Pas encore d'évaluation
Memoire de Magister: Specialite: Genie Civil
187 pages
Introduction aux Télécommunications S4
Pas encore d'évaluation
Introduction aux Télécommunications S4
17 pages
III Chapitre Analyse de Fiabilité - Office
Pas encore d'évaluation
III Chapitre Analyse de Fiabilité - Office
7 pages
Filtre IIR
Pas encore d'évaluation
Filtre IIR
26 pages