0% ont trouvé ce document utile (0 vote)

64 vues7 pages

Chapitre3 CAH

Le chapitre présente la classification ascendante hiérarchique (CAH), un algorithme qui regroupe des observations en fonction de leur distance ou dissimilarité. Il décrit les critères d'agrégation utilisés pour former des classes, notamment le critère de Ward, et illustre l'application de la CAH sur des données de températures de villes européennes. Les résultats montrent que le choix du critère d'agrégation influence fortement les résultats, et une comparaison avec la méthode K-means révèle une forte similarité entre les partitions obtenues.

Transféré par

Lolpierre

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

64 vues7 pages

Chapitre3 CAH

Transféré par

Lolpierre

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 38

Classification ascendante hiérarchique

8.1 Algorithme
Le but de la classification hiérarchique est de fournir une hiérarchie. Il existe deux ap-
proches :
— la classification descendante : on divise successivement ⌦ en deux parties, etc...
— la classification ascendante : on part des singletons qu’on regroupe par deux, etc...
On s’intéressera uniquement à la classification ascendante hiérarchique (CAH). Pour pou-
voir regrouper des parties de ⌦, il faut définir des critères d’agrégation
— distance ou dissimilarité entre les observations

dM (x, y) 2 R+ , x, y 2 ⌦.

— distance ou dissimilarité entre les classes

D(A, B) 2 R+ ,

où A et B sont deux classes et D est une fonction de dM .

On présente maintenant l’algorithme de la CAH

Algorithme 2 : Algorithme de de CAH

Data : x1 , . . . , xn
Initialisation : définir la partition P [0] consistuée des singletons;
for m = 1, . . . , K 1 do
calculer les distances deux à deux entre les classes de la partition P [m 1] à l’aide de
D;
former la partition P [m] en regroupant les deux classes de P [m 1] les plus proches au
sens de D;
end
Result : Hiérarchie indicée
L’algorithme de la CAH fournit une hiérachie indicée où D est l’indice si D est croissante.

69
8.2 Les critères d’agrégation usuels
Définition 8.2.1. Soit A et B deux classes de ⌦, on a les critères d’agrégation suivants :
— critère du saut minimum ("single linkage")

D(A, B) = min{dM (x, y); x 2 A, y 2 B}.

— critère du saut maximum ("complete linkage")

D(A, B) = max{dM (x, y); x 2 A, y 2 B}.

— critère de la distance moyenne ("average linkage")

P P
x2A y2B dM (x, y)
D(A, B) = ,
nA nB
où nA = card(A) et nB = card(B).
— critère de Ward
nA nB 2
D(A, B) = d (µA , µB ),
nA + nB M
P P
µA = n1A x2A x, µB = n1B y2B y.
Notons que les critères du saut minimum et du saut maximum sont plus sensibles aux
observations atypiques car ils ne basent que sur une observation de chaque classe. Nous
donnons maintenant une propriété de la CAH associée au critère de Ward.
Propriété 8.2.1. L’utilisation de l’indice de Ward permet de regrouper, à chaque étape
de l’algorithme de la CAH, les classes dont la fusion permet le plus faible gain d’inertie
intra-classe.

Preuve de la Propriété 8.2.1. Supposons qu’on dispose, à l’itération m, de la partition

P [m] = {P1 , . . . , PK , A, B} et que, sans perte de généralité, on regroupe à l’itération
m + 1 les classes A et B. De sorte que P [m+1] = {P1 , . . . , PK , {A, B}}. On a
K X
X n X X
[m]
W (P )= zik d2M (xi , µk ) + d2M (xi , µA ) + d2M (xi , µB ),
k=1 i=1 i2A i2B

et
K X
X n X
[m+1]
W (P )= zik d2M (xi , µk ) + d2M (xi , µAB ),
k=1 i=1 i2{A,B}
Pn P P
où µk = i=1 zik xi , µA = n1A i2A xi , µB = n1B i2B xi , nA est le nombre d’observations
aﬀectées à la classe A, nB est le nombre d’observations aﬀectées à la classe B, et
1 X nA nB
µAB = xi = µA + µB .
nA + nB nA + nB nA + nB
i2{A,B}

De plus, X X X
d2M (xi , µAB ) = d2M (xi , µAB ) + d2M (xi , µAB ).
i2{A,B} i2A i2B

70
En appliquant le théorème de Huygens, on a
X X
d2M (xi , µAB ) = d2M (xi , µA ) + nA d2M (µA , µAB )
i2A i2A

et X X
d2M (xi , µAB ) = d2M (xi , µA ) + nB d2M (µB , µAB ).
i2B i2B

Ainsi, en notant = W (P [m+1] ) W (P [m] ), on a

= nA d2M (µA , µAB ) + nB d2M (µB , µAB ).

Or
✓ ◆2
nA nB
d2M (µA , µAB ) = µA µA µB
nA + nB nA + nB
✓ ◆2
nB
= (µA µB )
nA + nB
✓ ◆2
nB
= d2M (µA , µB ).
nA + nB

⇣ ⌘2
De la même façon, on a d2M (µB , µAB ) = nA
nA +nB
d2M (µA , µB ). Ainsi

nA n2B + n2A nB 2
= d (µA , µB )
(nA + nB )2 M
nA nB 2
= d (µA , µB ).
nA + nB M
La perte minimale d’inertie inter-classe est donc bien obtenue lorsque l’on minimise le
critère de Ward.

8.3 Exemple d’une CAH sur données réelles

On considère la même problématique sur les températures des villes européennes présentée
dans le Chapitre 7. On commence par vider l’environement de R, puis on charge les
données à partir du fichier csv.
rm(list=ls())
setwd("~/Documents/enseignements/ENSAI/1A/SEM/exemples/data/")
require(FactoMineR)

Loading required package: FactoMineR

71
require(cluster)

Loading required package: cluster

require(VarSelLCM)

Loading required package: VarSelLCM

Attaching package: ’VarSelLCM’

The following object is masked from ’package:stats’:

predict
# Importation des donnees
temperature <- read.table("temperatures.csv",
header = TRUE,
sep = ";",
dec = ".",
row.names = 1)

Nous ne reproduisons pas les statistiques descriptives (voir Chapitre 7). Nous eﬀectuons
le clustering par la méthode de la classification ascendante hiérarchique. Nous conservons
les mêmes élèments actifs que pour l’ACP. Afin de conserver la même métrique, nous
standardisons les données car la fonction agnes de R ne premet pas de spécifier la métrique
(l’argument “metric” permet de déterminer la nature de la distance utilisée). On eﬀectue
la CAH avec le critère de Ward et aussi avec le critère du saut minimum. On constate
que le choix du critère d’agrégation impacte fortement les résultats. Le dendrogramme
associé au saut minimum est caractéristique de celui-ci. Cependant, comme ce critère est
sensible aux valeurs extrêmes, nous analysons les résultas obtenus avec le critère de Ward.
Avec le critère de Ward, 2 ou 3 classes peuvent être sélectionnées. Ici, nous privilégions
une interprétation en 3 classes.
require(cluster)
dataTocluster <- scale(temperature[1:23, 1:12])
res.CAHward <- agnes(dataTocluster, metric = "euclidean", method = "ward")
res.CAHmini <- agnes(dataTocluster, metric = "euclidean", method = "single")
plot(res.CAHward)

72
Banner of agnes(x = dataTocluster, metric = "euclidean", method =
"ward")
Amste
Londr
Dubli
Pragu
Sofia
Copen
Craco
Oslo
Minsk
Reykj
Lisbo
Rome

0 2 4 6 8 10 12 14 16
Height
Agglomerative Coefficient = 0.91

Dendrogram of agnes(x = dataTocluster, metric = "euclidean", method =

"ward")
15
10
5
Height

Reykjavik
0

Athenes
Lisbonne
Budapest
Copenhague
Dublin

Madrid
Rome
Paris

Kiev
Cracovie
Helsinki
Berlin

Minsk
Moscou
Oslo
Stockholm
Londres

Prague
Sarajevo
Sofia
Amsterdam
Bruxelles

dataTocluster
Agglomerative Coefficient = 0.91

plot(res.CAHmini)
Banner of agnes(x = dataTocluster, metric = "euclidean", method =
"single")
Amste
Londr
Dubli
Pragu
Sofia
Kiev
Budap
Oslo
Minsk
Athen
Madri
Reykj

0 0.5 1 1.5 2 2.5 3 3.41

Height
Agglomerative Coefficient = 0.66

73
Dendrogram of agnes(x = dataTocluster, metric = "euclidean", method =
"single")

3.5

Reykjavik
2.5
1.5

Athenes
Height

Lisbonne
Budapest

Madrid
Rome
Copenhague
0.5

Kiev
Dublin

Cracovie

Helsinki

Minsk
Moscou
Paris

Oslo
Stockholm
Berlin
Prague
Londres

Sarajevo
Sofia
Amsterdam
Bruxelles
dataTocluster
Agglomerative Coefficient = 0.66

Nous commençons par comparer les résultats obtenus par les Kmeans à ceux obtenus
par la CAH associée au critère de Ward. Pour cela, nous récupérons la partition de la
CAH en 3 classes par la fonction cutree. On aﬃche la matrice de confusion entre les
deux partitions ainsi que la valeur du critère ARI. La valeur du critère ARI nous indique
une forte proximitée entre ces deux partitions (on pouvait s’y attendre vu le lien entre le
critère de ward et l’inertie intra-classe). On constate que les deux méthodes identifie une
classe minoritaire identique (composée de 4 capitales située en méditerranée) groupant
les capitales les plus chaudes.
partitionCAH <- cutree(res.CAHward, 3)
res.kmeans <- kmeans(dataTocluster, 3)
table(res.kmeans$cluster, partitionCAH)

partitionCAH
1 2 3
1 0 4 0
2 12 0 0
3 1 0 6
ARI(res.kmeans$cluster, partitionCAH)

[1] 0.8490153
L’interprétation de la partition en 3 issue de la CAH peut se faire à partir de statistiques
calculées classe par classe. L’interprétation est similaire à celle faite pour les K-means.
by(dataTocluster, partitionCAH, colMeans)

INDICES: 1
Janvier Fevrier Mars Avril Mai Juin
0.002065964 0.014499456 0.066940535 0.059441314 0.013708569 -0.099199185
Juillet Aout Septembre Octobre Novembre Decembre
-0.154566129 -0.092949694 -0.020700134 0.016567019 -0.016687638 -0.009417904
------------------------------------------------------------
INDICES: 2
Janvier Fevrier Mars Avril Mai Juin Juillet Aout
1.496258 1.561010 1.567183 1.604964 1.446530 1.540304 1.637635 1.683786
Septembre Octobre Novembre Decembre

74
1.730971 1.689456 1.678195 1.539356
------------------------------------------------------------
INDICES: 3
Janvier Fevrier Mars Avril Mai Juin Juillet
-1.0019817 -1.0720889 -1.1898264 -1.1987653 -0.9940555 -0.8119380 -0.7568631
Aout Septembre Octobre Novembre Decembre
-0.9211327 -1.1091304 -1.1621989 -1.0826402 -1.0058322

Vous aimerez peut-être aussi

Introduction à la Classification Statistique
Pas encore d'évaluation
Introduction à la Classification Statistique
51 pages
Clustering en apprentissage non supervisé
Pas encore d'évaluation
Clustering en apprentissage non supervisé
56 pages
Classification et mesures d'éloignement
100% (1)
Classification et mesures d'éloignement
63 pages
Classification Automatique des Données
Pas encore d'évaluation
Classification Automatique des Données
11 pages
CAH et k-moyennes : Analyse de données
Pas encore d'évaluation
CAH et k-moyennes : Analyse de données
49 pages
CAH Et ACM
100% (1)
CAH Et ACM
4 pages
Cours 5 - CAH
Pas encore d'évaluation
Cours 5 - CAH
23 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
16 pages
Méthodes de Clustering et Hiérarchies
Pas encore d'évaluation
Méthodes de Clustering et Hiérarchies
11 pages
Cours 4 - CAH
Pas encore d'évaluation
Cours 4 - CAH
63 pages
Add Cha3 Fiche
Pas encore d'évaluation
Add Cha3 Fiche
1 page
Classification Automatique
Pas encore d'évaluation
Classification Automatique
10 pages
IIT - 3eme Genie INDUS - DM - Chap 2 (Complet)
Pas encore d'évaluation
IIT - 3eme Genie INDUS - DM - Chap 2 (Complet)
43 pages
Cours3 Cah Cns 2025
Pas encore d'évaluation
Cours3 Cah Cns 2025
62 pages
Classification ascendante hiérarchique TP1
Pas encore d'évaluation
Classification ascendante hiérarchique TP1
10 pages
Cours 5-CAH
Pas encore d'évaluation
Cours 5-CAH
7 pages
Méthodes d'Apprentissage Non-Supervisées
Pas encore d'évaluation
Méthodes d'Apprentissage Non-Supervisées
65 pages
Chapitre 3 - App Et Classification Non Supervisé (Complet)
Pas encore d'évaluation
Chapitre 3 - App Et Classification Non Supervisé (Complet)
43 pages
Cha4 CAH
Pas encore d'évaluation
Cha4 CAH
27 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
22 pages
CAH avec méthode de Ward expliquée
Pas encore d'évaluation
CAH avec méthode de Ward expliquée
5 pages
Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
Pas encore d'évaluation
Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
39 pages
Analyse de données sur le fromage avec K-Means
Pas encore d'évaluation
Analyse de données sur le fromage avec K-Means
10 pages
CHAPITRE4
Pas encore d'évaluation
CHAPITRE4
21 pages
Supplementaire Cluseing
Pas encore d'évaluation
Supplementaire Cluseing
7 pages
Analyse des Données et Méthodes Statistiques
67% (3)
Analyse des Données et Méthodes Statistiques
144 pages
AD - CH 3
Pas encore d'évaluation
AD - CH 3
29 pages
Méthodes de Clustering et Classification
Pas encore d'évaluation
Méthodes de Clustering et Classification
107 pages
Chapitre 4 Méthodes de Classification Et Du Clustering
Pas encore d'évaluation
Chapitre 4 Méthodes de Classification Et Du Clustering
4 pages
Introduction au Clustering
Pas encore d'évaluation
Introduction au Clustering
6 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
40 pages
Méthodes de Classification : K-means, CHA, KNN
Pas encore d'évaluation
Méthodes de Classification : K-means, CHA, KNN
10 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
18 pages
Introduction à la Classification Hiérarchique
Pas encore d'évaluation
Introduction à la Classification Hiérarchique
10 pages
Classification Ascendante Hiérarchique
Pas encore d'évaluation
Classification Ascendante Hiérarchique
6 pages
Chapitre3 Classification
Pas encore d'évaluation
Chapitre3 Classification
33 pages
Méthodes de Classification Automatique
Pas encore d'évaluation
Méthodes de Classification Automatique
50 pages
Chapitre 5 - Les Méthodes de Classification PDF
100% (1)
Chapitre 5 - Les Méthodes de Classification PDF
11 pages
Exemple K Means Et HCA PDF
Pas encore d'évaluation
Exemple K Means Et HCA PDF
4 pages
Cah Ensea
Pas encore d'évaluation
Cah Ensea
62 pages
Classification non supervisée : HAC et K-means
Pas encore d'évaluation
Classification non supervisée : HAC et K-means
9 pages
Analyse Des Données CHIC
Pas encore d'évaluation
Analyse Des Données CHIC
29 pages
Chapitre2 Kmeans
Pas encore d'évaluation
Chapitre2 Kmeans
10 pages
Méthodes de Classification et Segmentation
Pas encore d'évaluation
Méthodes de Classification et Segmentation
49 pages
Mesures et Méthodes de Classification
Pas encore d'évaluation
Mesures et Méthodes de Classification
2 pages
Classification Ascendante Hiérachique
Pas encore d'évaluation
Classification Ascendante Hiérachique
42 pages
Méthodes de Classification Statistique
Pas encore d'évaluation
Méthodes de Classification Statistique
47 pages
Data Mining CAH
Pas encore d'évaluation
Data Mining CAH
18 pages
Typologie et Classification Hiérarchique
Pas encore d'évaluation
Typologie et Classification Hiérarchique
45 pages
Cours Classification
Pas encore d'évaluation
Cours Classification
5 pages
Classification hiérarchique descendante
Pas encore d'évaluation
Classification hiérarchique descendante
62 pages
Analyse des Données en Agronomie
Pas encore d'évaluation
Analyse des Données en Agronomie
115 pages
Classification Non Supervisée des Données
Pas encore d'évaluation
Classification Non Supervisée des Données
74 pages
Classification non supervisée en BADS
Pas encore d'évaluation
Classification non supervisée en BADS
33 pages
Classification hiérarchique SPSS
Pas encore d'évaluation
Classification hiérarchique SPSS
25 pages
Groupe Aaaaaaaaaaaaaaa
Pas encore d'évaluation
Groupe Aaaaaaaaaaaaaaa
28 pages
Cours4 - MMelanges CNS 2025
Pas encore d'évaluation
Cours4 - MMelanges CNS 2025
106 pages
Cours CompProbas Partie1!1!60
Pas encore d'évaluation
Cours CompProbas Partie1!1!60
60 pages
1D2 - Entraînement À La Traduction Journalistique 1
Pas encore d'évaluation
1D2 - Entraînement À La Traduction Journalistique 1
3 pages
Épreuve pratique Bac Numérique 2022
Pas encore d'évaluation
Épreuve pratique Bac Numérique 2022
3 pages
Portes Ouvertes CPGE ECG Saint-Charles
Pas encore d'évaluation
Portes Ouvertes CPGE ECG Saint-Charles
3 pages
TD 1 Corrigé S4 2021-22 Méthodes Num
Pas encore d'évaluation
TD 1 Corrigé S4 2021-22 Méthodes Num
4 pages
Polycopie ASD 3 PDF
Pas encore d'évaluation
Polycopie ASD 3 PDF
88 pages
Correction Examen Complexité Mai 2023
100% (1)
Correction Examen Complexité Mai 2023
4 pages
Introduction aux fonctions récursives
Pas encore d'évaluation
Introduction aux fonctions récursives
12 pages
Optimisation par Programmation Linéaire
Pas encore d'évaluation
Optimisation par Programmation Linéaire
29 pages
Codage Huffman et Shannon-Fano en MATLAB
Pas encore d'évaluation
Codage Huffman et Shannon-Fano en MATLAB
11 pages
Complexité des algorithmes en programmation
Pas encore d'évaluation
Complexité des algorithmes en programmation
6 pages
Chapitre 3
Pas encore d'évaluation
Chapitre 3
14 pages
Exercices Corrigés en Algorithmique 1ère Année
Pas encore d'évaluation
Exercices Corrigés en Algorithmique 1ère Année
20 pages
Résolution d'un problème biobjectif par simplexe
Pas encore d'évaluation
Résolution d'un problème biobjectif par simplexe
6 pages
Exercices Corrigés Méthode de Jacobi
100% (3)
Exercices Corrigés Méthode de Jacobi
13 pages
Introduction à la récursivité en algorithmes
Pas encore d'évaluation
Introduction à la récursivité en algorithmes
8 pages
Chap Svm2019dernièreversion
Pas encore d'évaluation
Chap Svm2019dernièreversion
63 pages
Méthode Gomory & Algorithmes Fourmis
Pas encore d'évaluation
Méthode Gomory & Algorithmes Fourmis
21 pages
Résolution graphique en programmation linéaire
Pas encore d'évaluation
Résolution graphique en programmation linéaire
7 pages
Méthode du Simplexe en Recherche Opérationnelle
Pas encore d'évaluation
Méthode du Simplexe en Recherche Opérationnelle
30 pages
Corrigé d'exercices de recherche opérationnelle
Pas encore d'évaluation
Corrigé d'exercices de recherche opérationnelle
4 pages
Agents intelligents et résolution de problèmes
Pas encore d'évaluation
Agents intelligents et résolution de problèmes
76 pages
Algorithmes gloutons en optimisation
Pas encore d'évaluation
Algorithmes gloutons en optimisation
4 pages
Analyse de la complexité des algorithmes
Pas encore d'évaluation
Analyse de la complexité des algorithmes
32 pages
Signe D Un Binome Signe Et Factorisation D Un Polynome Resume de Cours
Pas encore d'évaluation
Signe D Un Binome Signe Et Factorisation D Un Polynome Resume de Cours
1 page
Concours Commun Mines-Ponts (CCMP) 2025 MP-PC-PSI Informatique Commune e
Pas encore d'évaluation
Concours Commun Mines-Ponts (CCMP) 2025 MP-PC-PSI Informatique Commune e
15 pages
Corrige Examen ASD3 2024
Pas encore d'évaluation
Corrige Examen ASD3 2024
5 pages
Correction TD 2 Clustering
Pas encore d'évaluation
Correction TD 2 Clustering
2 pages
Ddad
Pas encore d'évaluation
Ddad
2 pages
TP3 - Clustering K-Moyennes K-Medoïde K-Means ++ Et FCM
Pas encore d'évaluation
TP3 - Clustering K-Moyennes K-Medoïde K-Means ++ Et FCM
1 page
Corrigé TD 3: Algorithmes et Complexité
Pas encore d'évaluation
Corrigé TD 3: Algorithmes et Complexité
10 pages
TD3 Parcours Graphe Correction 24-25
Pas encore d'évaluation
TD3 Parcours Graphe Correction 24-25
7 pages
td1 Et Solutions
Pas encore d'évaluation
td1 Et Solutions
6 pages
Cours MPSI
Pas encore d'évaluation
Cours MPSI
5 pages