0% ont trouvé ce document utile (0 vote)

84 vues10 pages

Clustering : Guide Essentiel et Applications

Le document décrit le processus de clustering qui regroupe des données en classes sans supervision. Il présente les principales méthodologies de clustering, les structures de données utilisées et les domaines d'application du clustering.

Transféré par

Naima Hassoune

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

84 vues10 pages

Clustering : Guide Essentiel et Applications

Transféré par

Naima Hassoune

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Qu’est-ce que le clustering ?

Processus qui partitionne un ensemble de

Clustering z
données en sous-classes (clusters) ayant du sens

z Classification non-supervisée : classes non pré-

définies
¾ Les regroupements d'objets (clusters) forment les
classes

z Optimiser le regroupement
¾ Maximisation de la similarité intra-classe
¾ Minimisation de la similarité inter-classes
Maria Rifqi
z Principales applications
¾ Observer la distribution des données en identifiant
les groupes et leurs caractéristiques (découvrir des
corrélations)
¾ Préparation des données pour un autre algorithme
ou application

Applications du Clustering
z Reconnaissance de formes

Cj
z Analyse des données spatiales:

Ci z Traitement d’images
ωl

ωm z Market Research

ωk
z Recherche d’information
¾ Catégorisation de documents ou de termes
Les individus d’d’ une même Les individus de deux classes ¾ Visualisation de l’information et interfaces de recherche d’information
classe sont le « plus ressemblants » difféé rentes sont « le plus disse mblables »
diff
possible possible
z Web Mining
¾ Clustering des usages du web pour découvrir des groupes d’accès similaires
¾ Personalisation du Web

Méthodologies de Clustering Structures des données

z Deux méthodologies générales z Représentation de vecteurs dans un espace à N

¾ Algorithmes de partitionnment dimensions et une distance
D1: 57,M,195,0,125,95,39,25,0,1,0,0,0,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0
¾ Algorithmes hiérarchiques
D2: 78,M,160,1,130,100,37,40,1,0,0,0,1,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0
...
z Partitionnment Dn: 18,M,165,0,110,80,41,30,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0

¾ Diviser un ensemble de N items en K clusters Distance (D1,D2) = ???

z Distances 2 à 2 entre les points
-- 1 2 3 4 5 6 7 8 9 10
z Hiérarchique z Matrice de similarités/dissimilarités 1 - ddddddddd
¾ Par agglomérations : les paires d’items ou de clusters sont z Distance : 0 = proche, ∞ = loin, 2
3
- dddddddd
- ddddddd
successivement liés pour produire des clusters plus grands (bottom-up) z Similarité : 0 = loin, ∞ = proche 4 - dddddd
5 - ddddd
6 - dddd
¾ Par divisions : commencer par l’ensemble entier comme cluster et 7 - ddd
successivement diviser en de plus petites partitions (top-down) 8 - dd
9 - d

1
Qualité d’une méthode de clustering Le clustering est un problème mal posé

z Une des questions difficiles du clustering : à quel point les clusters

trouvés sont bons ?
z Bonnes propriétés de croissance (scalability)
z Capacité à traiter différents types d’attributs
z Découverte de clusters de formes arbitraires
z Connaissances minimales du domaines requises pour définir les
paramètres
z Capacité à traiter les données bruitées et les exceptions
z Insensibilité à l’ordre des objets du jeu de données
z Capacité à traiter de très nombreux attributs
z Extraction de clusters en intégrant des contraintes spécifiées par Combien de clusters ?
l’utilisateur
z Résultat interprétable et utilisable

Combien de clusters ? Combien de clusters ?

Combien de clusters ? Types de données pour l’analyse de clusters

z Cinq types différents de variables nécessitent des traitements

différents
z Numériques linéaires
¾ Ex : poids, taille, longitude, latitude, etc.
z Binaires : une valeur parmi deux possibles
¾ 0 : la variable est absente, 1 : la variable est présente
z Nominale : valeur prise dans une liste finie
¾ Ex : couleur : « vert, bleu, rouge, jaune, noir »
z Ordinales : l’ordre des valeurs est plus important
¾ Ex : résultat d’un concours
z Ratios : variables numériques sur une échelle exponentielle

2
Mesure de similarité entre objets Variables numériques continues

z Similarité entre objets calculée selon leur caractéristiques (attributs z Souvent, les distances sont utilisées
possédés, valeurs des attributs, taille des objets, etc.) z Propriétés des distances :
¾ Souvent exprimée en termes de fonctions de distance : d(o1,o2) ¾ Symétrie : Pour tout A et tout B, D(A, B) ≥ 0, and D(A, B) = D(B, A)
¾ Pour tout A, D(A, A) = 0
¾ Fonction de distance différente pour les variables numériques continues,
booléennes, catégoriques, ordinales et de ratios ¾ Inégalité triangulaire : D(A, C) ≤ D(A, B) + D(B, C)

¾ Des poids peuvent être associés à chaque variable selon la sémantique

de l’application et des données z Distances classiques :
¾ Distance Euclidienne :

z Objets « suffisamment similaires » sont regroupés en clusters D(X,Y) = [(x1 –y1)2 + (x2 –y2)2 + ... + (xN –yN)2]1/2
¾ Définition de « suffisamment similaire » difficile, subjective
¾ Distance de Minkowski (généralisation de la distance euclidienne) :

z Mesure de qualité de chaque cluster D(X,Y) = [(x1 –y1)q + (x2 –y2)q + ... + (xN –yN)q]1/q , q entier positif non nul
¾ Selon la distance entre les objets appartenant au cluster et la distance
entre les clusters ¾ Distance de Manhattan (q=1) :

D(X,Y) = | x1 –y1| + | x2 –y2|+ ... + xN –y N|

Variables numériques : Normalisation Variables numériques : Normalisation

z Valeurs entre 0 et 1
x 'i =
xi − min xi z Standardiser les données
max xi − min xi
z Exemple ¾ Égaliser le poids des variables pour assurer
¾ max distance de l’âge: 100000-19000 = 79000
l’indépendance par rapport aux unités de mesures
¾ max distance de l’âge : 52-27 = 25 ¾ Calculer la déviation absolue moyenne :
ID Sexe Age Salaire ID Sexe Age Salaire sf = 1/n(|x1f - mf| + (|x2f - mf| +...+ (|xNf - mf| )
1 F 27 19 000 1 1 0,00 0,00
2 M 51 64 000 2 0 0,96 0,56 avec :
3 M 52 100 000 3 0 1,00 1,00
4 F 33 55 000 4 1 0,24 0,44
mf = 1/n(x1f+ x2f +...+ xNf)
5 M 45 45 000 5 0 0,72 0,32
¾ Puis calculer le z-score :
zif = (xif - mf)/sf
¾ dist(ID2, ID3) = SQRT( 0 + (0.04)2 + (0.44)2 ) = 0.44
¾ dist(ID2, ID4) = SQRT( 1 + (0.72)2 + (0.12)2 ) = 1.24

Variables binaires Variables binaires

Objet i
z Une table de contingence pour données binaires
1 (Présence) 0 (Absence)
Objet j
1 0 sum a= nombre de positions Objet j 1 (Présence) a b

1 a b a +b où Oi a 1 et Oj a 1 0 (Absence) c d

Objet i 0 c d c+d z Coefficient de Russel et Rao :

sum a + c b + d p ¾ S(i,j) = a/(a+b+c+d)
z Coefficient de Jaccard :
z Exemple Oi=(1,1,0,1,0) et Oj=(1,0,0,0,1) ¾ S(i,j) = a/(a+b+c)
z Coefficient de Dice :
z a=1, b=2, c=1, d=2 ¾ S(i,j) = 2a/(2a+b+c)

3
Variables binaires Variables nominales

z Exemple : z Généralisation des variables binaires : plus de

Toux Fièvre Test
deux états possibles
Apollon N Oui P
Zeus N Oui N
¾ Ex : couleur = {vert, jaune, rouge, bleu}
¾ Intersection, différence,... ensembliste
z Les valeurs Oui et P sont transformées en 1 et les
valeurs N en 0
¾ sJaccard (Apollon, Zeus)=2/3

Similarités de documents Méthodes hiérarchiques

T1 T2 T3 T4 T5 T6 T7 T8 z Créent une décomposition hiérarchique des objets

Doc1 0 4 0 0 0 2 1 3 z Méthodes par agglomérations (bottom-up)
Doc2 3 1 4 3 1 2 0 1 ¾ Départ : chaque objet constitue un cluster
Doc3 3 0 0 0 3 0 3 0 ¾ Regroupe les objets ou clusters les plus proches
Doc4 0 1 0 3 0 0 2 0
¾ Condition d’arrêt : on arrive au concept sommet ou bien une condition est
Doc5 2 2 2 3 1 4 0 2 vérifiée (ex : obtenu k clusters)
z Méthodes par divisions (top-down)
N T1 T2 T3 T4 T5 T6 T7
sim(Ti , Tj ) = ∑ ( wik ⋅ w jk ) T2 7 ¾ Départ : un unique cluster contenant tous les objets
k =1 T3 16 8 ¾ Séparer les objets ou clusters les plus dissimilaires
T4 15 12 18 ¾ Condition d’arrêt : tous les objets sont des concepts feuilles ou bien une
T5 14 3 6 6 condition est vérifiée
T6 14 18 16 18 6 z Différentes méthodes : différentes définitions de la mesure de
T7 9 6 0 6 9 2 dissimilarité entre clusters
T8 7 17 8 9 3 16 3

Méthodes hiérarchiques Méthode hiérarchique : exemple

z Procédure adoptée :
¾ regrouper ensemble tous les éléments dont la distance est
inférieure ou égale à 3 et uniquement ceux-ci.
z Distance ultramétrique : au lieu de l’inégalité triangulaire,
on a :
¾ D(X,Y) <= max(D(X,Z), D(Y,Z))

D Xav Yves Ziad Tania Ute

Xav 0
Yves 4,5 0
Ziad 2 3,5 0
Tania 5 6 4,5 0
Ute 4 5,5 2,5 1,5 0

4
Méthode hiérarchique : exemple Méthode hiérarchique : exemple

z 1ère étape : La paire constituée des éléments les plus proches

z 2ème étape : on cherche la paire qui constituera le
constituera le premier « agrégat ».
deuxième agrégat
¾ On regroupe Tania et Ute -> nouvel ensemble {Xav, Yves, Ziad,
(Tania, Ute)} ¾ Xav et Ziad -> nouvel ensemble {(Xav,Ziad),Yves, (Tania, Ute)}
¾ On recalcule la matrice des distances en considérant que la ¾ On recalcule la matrice des distances
distance entre un élément et un ens. d’éléments est le min des
distances à chaque élément.

D Xav Yves Ziad Tania,Ute D Xav,Ziad Yves Tania,Ute

Xav 0 Xav, Ziad 0
Yves 4,5 0 Yves 3,5 0
Ziad 2 3,5 0 Tania,Ute 2,5 5,5 0
Tania,Ute 4 5,5 2,5 0

Méthode hiérarchique : exemple Méthode hiérarchique : exemple

z 2ème étape : on cherche la paire qui constituera z Conclusion :

le deuxième agrégat ¾ La dernière étape, symbolique, consiste à constater
¾ les objets les plus proches sont (Xav,Ziad) et (Tania, que la distance de Yves à (Xav,Ziad,Tania, Ute), est
Ute) -> nouvel ensemble {(Xav,Ziad,Tania, Ute),Yves} 3,5.

¾ On recalcule la matrice des distances ¾ Nous pouvons distinguer trois groupes ou agrégats, le
premier formé des jurés Tania et Ute distant de celui
D Xav, Ziad, Yves de Xav et Ziad de 2,5 unités et enfin au loin le juré
Tania, Ute Yves distant de 3,5 de ses voisins les plus proches. Il
Xav, Ziad, 0 semble que ce dernier devra être exclu du jury.
Tania,Ute
Yves 3,5 0

Résultat : Dendogramme Méthodes hiérarchiques : Autres stratégies

z La stratégie
d’agrégation de
l’exemple est une
3,5 stratégie du
2,5 “minimum”. Peut-on
2
en imaginer d’autres ?
1,5
¾ On peut en envisager au
moins 6 autres !

Tania Ute Xav Ziad Yves

5
Méthodes par partitionnement Méthodes par partitionnement

z Partitionnement : les objets du jeu de données sont z But : partitionner un ensemble X de N objets {x1, x2, ... xN} en k
groupés en k clusters classes (k fixé par l'utilisateur)
z Chaque classe Ck ayant Nk membres est définie par un prototype ou
z Étant donnée une valeur k, trouver une partition de k centre
clusters qui optimise le critère de partionnement (fonction 1
de similarité) mk =
Nk
∑x
x∈Ck
z Approches heuristiques : z Critère de performance : à défaut de valeurs cibles, l'erreur est
¾ K-means : chaque cluster est représenté par son centre de définie comme la distance euclidienne entre individus et centres des
gravité groupes
¾ K-medoïds : chaque cluster est représenté par un objet du cluster K 2 K T

E 2 = ∑ ∑ x x − mk = ∑ ∑ ( x − mk ) ( x − mk )
k =1 x∈Ck k =1 x∈Ck

Algorithme des K-Means K-Means : exemple

z Algorithme de base : En utilisant la mesure de similarité classique, calculer la nouvelle matrice
de similarités aux clusters
1. selectionner K points comme les représentants initiaux
2. for i = 1 to N, affecter l’item xi au centre le plus similaire (ceci donne K clusters) T1 T2 T3 T4 T5 T6 T7 T8
Classe1 29/2 29/2 24/2 27/2 17/2 32/2 15/2 24/2
3. for j = 1 to K, recalculer le centre du cluster Cj Classe2 31/2 20/2 38/2 45/2 12/2 34/2 6/2 17/2
4. repéter les étapes 2 et 3 jusqu’à ce qu’il n’y ait plus (ou peu) de changement Classe3 28/2 21/2 22/2 24/2 17/2 30/2 11/2 19/2
dans les clusters Affecté à Classe2 Classe1 Classe2 Classe2 Classe3 Classe2 Classe1 Classe1
z Exemple: Clustering de mots Calculer les centres des nouveaux clusters en utilisant la matrice initiale
Affectation initiale arbitraire : Centres des Clusters
C1 = {T1,T2}, C2 = {T3,T4}, C3 = {T5,T6}
T1 T2 T3 T4 T5 T6 T7 T8 C1 C2 C3
Doc1 0 4 0 0 0 2 1 3 8/3 2/4 0/1
T1 T2 T3 T4 T5 T6 T7 T8 C1 C2 C3 Doc2 3 1 4 3 1 2 0 1 2/3 12/4 1/1
Doc1 0 4 0 0 0 2 1 3 4/2 0/2 2/2 Doc3 3 0 0 0 3 0 3 0 3/3 3/4 3/1
Doc2 3 1 4 3 1 2 0 1 4/2 7/2 3/2 Doc4 0 1 0 3 0 0 2 0 3/3 3/4 0/1
Doc3 3 0 0 0 3 0 3 0 3/2 0/2 3/2 Doc5 2 2 2 3 1 4 0 2 4/3 11/4 1/1
Doc4 0 1 0 3 0 0 2 0 1/2 3/2 0/2
Doc5 2 2 2 3 1 4 0 2 4/2 5/2 5/2 Le processus est répété jusqu’à ce que les clusters ne soient plus modifiés

K-means : Illustration K-Means : Quelle valeur de K ?

z Nombre de classes K à fixer par l'utilisateur
Calcul des
Choix aléatoire de centres des ¾ soit en utilisant des connaissances du domaine : K=10 pour la
k objets, centres clusters et reconnaissance de chiffres
initiaux et calcul recalcul des ¾ soit de manière empirique : essayer différentes valeurs de K et choisir le
des clusters clusters K qui optimise un critère de qualité/validité du clustering obtenu
z L'erreur n'est pas un bon indice de qualité/validité :
¾ décroît monotoniquement avec K. On peut chercher le "coude" de la
courbe :
On stoppe Calcul des
lorsque les centres des
clusters sont clusters et
stables recalcul des
clusters

z Le calcul de l'erreur n'est basé que sur la dispersion intra-groupes

6
Indice de validité VRC K-means : bilan
z Force des k-means:
z Une trentaine d'indices de validité étudiés par Mulligan & Cooper 85
¾ Relativement efficaces : O(tkn), où n est le nb d’objets, k est le nb de clusters, et
z Meilleures performances obtenues par l'indice VRC (variance ratio t est le nb d’itérations. Normalement, k, t << n
criterion) ¾ Terminent souvent dans un optimum local
dispersion inter − groupes B z Faiblesse des k-means:
VRC = =
dispersion intra − groupes W ¾ Besoin de préciser k à l’avance
1 K ¾ Sensibles aux données bruitées et aux exceptions, aux cas aberrants
∑ N t mt − m
2
B=
K − 1 t =1 ¾ Sensibles à l’initialisation
2
z lancer plusieurs éxecutions avec différents états initiaux
K
1
∑ x−m
z retenir la configuration jugée la meilleure
W= ¾ marche mal lorsque les groupes se chevauchent => variante : K-means flou
N −K
t
t =1
z Les variantes des K-Means diffèrent dans :
m = grand centre (vecteur des moyennes prises sur toutes les N ¾ La sélection des k initiaux
données ) ¾ Calcul de la dissimilarité
m i = centre du groupe i ¾ Stratégies pour calculer la moyenne d’un cluster

z Choisir le K qui maximise VRC.

Soft K-Means Clustering Modèles probabilistes

z Cas particulier du k-means : chaque individu z Les individus à classifier sont des réalisations
appartient à un cluster avec un certain degré de indépendantes d’un vecteur aléatoire de loi f.
probabilité z Plusieurs approches :
¾ Classification bayésienne
¾ Estimation de densité de probabilité (méthodes non
paramétriques)
¾ Modèles fonctionnels à effet fixe
¾ Mélange fini de densités de probabilité

Le modèle de mélange Modèle de mélange : exemple

z Mélange gaussien
¾ La densité de chaque classe k (population) est une loi normale A 51 B 62 B 64 A 48 A 39
A 43 A 47 A 51 B 64 B 62
¾ Paramètres B 62 A 52 A 52 A 51 B 64
z sigma : distance maximale de voisinage B 64 B 64 B 62 B 63 A 52
z m : nombre minimal d’objets dans le voisinage d’un objet pour qu’il soit l’objet cœur d’un cluster A 45 A 51 A 49 A 43 B 63
A 42 B 65 A 48 B 65 B 64
z Deux approches pour effectuer une classification: A 46 A 48 B 62 B 66 A 48
¾ Approche statistique classique estimant les paramètres des composants du mélange A 45 A 49 A 43 B 65 B 64
(approche mélange) A 45 A 46 A 40 A 46 A 48
z Maximisation de la vraisemblance : algorithme EM
¾ Maximisation de la vraisemblance (ou log-vraisemblance)
¾ Il n’existe pas de solution analytique
¾ Algo EM utilisé :
z Etape Estimation
z Etape Maximisation
z Approche estimant simultanément les paramètres des composants et le composant
dont est issu chaque point de l’échantillon (approche classification)
¾ On ajoute comme paramètres supplémentaires à estimer la classe à laquelle appartient
chaque individu
z Vraisemblance classifiante
z CEM = EM + étape Classification entre le E et le M.
µA=50, σ A =5, p A =0.6 µB=65, σB =2, p B=0.4

7
Modèle de mélange : exemple Fuzzy k-means

z Trouver les 5 paramètres : mA, sigmaA, mB, z Initialiser les moyennes m1, m2,..., mk
sigmaB, pA z Tant qu’il n’y a pas de changement dans les moyennes :
¾ m = x1 + ... + xn/n ¾ Utiliser les moyennes estimées pour trouver les degrés
d’appartenance u(j,i) de xj dans le Cluster i;
¾ sigma2= [(x1-m) 2 + ... + (xn-m) 2] /(n-1) par exemple, si a(j,i) = exp(- || xj - mi ||2 ), on peut utiliser u(j,i) =
a(j,i) / sum_j a(j,i)
¾ pA = nb d’exemples dans A / n
¾ For i = 1 to k
z Problème : on ne connait ni la classe des z Remplacer mi avec la moyenne floue de tous les exemples du

∑ u ( j , i) x
Cluster i 2
exemples ni les 5 paramètres j

mi =
j
¾ m = w1x1 + ... + wnxn/(w1+...+wn)
∑ u ( j, i) 2

¾ sigma2= [w1(x1-m)2 + ... + wn(xn-m)2] /(w1+...+wn) ¾ end_for

z end_until

Les cartes auto-organisatrices (Kohonen 82) SOM : principes

z self-organizing maps ou SOM, souvent appelés "réseaux z Les relations de voisinage entre les neurones définissent
de Kohonen" une topologie et donc un nouvel espace. 2 espaces :
z très proches des algorithmes de centres mobiles ¾ Un espace des entrées dans lequel peuvent être représentés les
¾ représentent les données par un nombre réduit de prototypes données et les vecteurs poids des neurones
(appelés neurones dans les SOM) ¾ Un espace de sortie (ou carte à une ou deux dimensions) qui
¾ méthode d'apprentissage compétitive : le "gagnant" = le prototype contient l’ensembles des neurones et sur lequel une topologie a
le plus proche de l'objet donné été définie.
z ce qui distingue les SOM de K-means : préservation de la z But de la cartographie associative :
topologie ¾ Associer chaque vecteur d’entrée à un neurone de la carte
¾ les objets les plus semblables seront plus proches sur la carte =>
¾ On espère que 2 vecteurs proches dans l’espace des entrées
visualisation claire des groupements
exciteront 2 neurones proches sur la carte.

La topologie du SOM Le fonctionnement du SOM

z réseau à une couche

z neurones ou prototypes
¾ vecteurs représentant les mêmes attributs que les données
¾ simples neurones linéaires, chacun connecté à toutes les entrées
¾ disposés sur une grille régulière (typiquement en 1-D ou 2-D)
z l'utilisateur choisit a priori la géométrie du réseau

Sur présentation d'un exemple :

z chaque neurone calcule sa distance par rapport à x. Le "gagnant" =
le neurone le plus proche de x
z la carte finale = une projection non linéaire de la densité de données z le gagnant et ses neurones voisins sont "tirés" vers x => garantit la
de haute dimensionnalité sur un espace 2-D préservation de la topologie
z la carte se comporte comme une bande ou surface élastique qu'on
étire pour la rapprocher des données

8
Algorithme du SOM Paramètre 1 : le pas d'apprentissage

z Initialiser un ensemble de neurones ou prototypes suivant la topologie z Contrôle la vitesse d'apprentissage et le compromis
choisie
¾ Architecture de la carte spécifiée => revient à choisir le nb de neurones et définir
stabilité/plasticité
les relations de voisinage ¾ h trop petit : le modèle ne s'adapte pas assez aux données =>
z Boucle de base : apprentissage très lent
¾ 1. Lire un vecteur d'entrée x ¾ h trop grand : apprentissage rapide, mais risque d'instabilité =>
¾ 2. Repérer le neurone k le plus proche de x (dist. euclidienne) peut ne jamais converger
||x - wk|| < || x - wi|| pour tout i = k
¾ 3. Mise à jour : tirer vers x les neurones i = {le gagnant k et les autres neurones
du voisinage centré sur k} z L'idée : focaliser rapidement sur une région prometteuse
w'i = wi + h*L(wi , wk)(x - wi) de l'espace d'hypothèses, puis affiner la recherche dans
z L'importance du déplacement : régie par 2 paramètres: cette région
¾ le pas d'apprentissage h ¾ choisir h grand au départ et le réduire graduellement
¾ la fonction de voisinage L(.) (souvent gaussienne)
¾ l'apprentissage s'arrête dès que h = 0

Paramètre 2 : la fonction de voisinage Exemple : Carte mondiale de la pauvreté

z La fonction de voisinage entre le neurone gagnant m k et un neurone z Illustre la robustesse des SOM aux données manquantes
m i doit décroître monotoniquement avec la distance entre les deux. z Données : statistiques de la Banque Mondiale
z Caractérisée par une forme et une largeur sigma z 126 pays, 39 indicateurs économiques (relatifs à la population)
¾ 78 pays utilisés pour entraîner le SOM
¾ autres pays ( > 11 valeurs manquantes) : intégrés dans la carte après
apprentissage
z Visualisation des groupements dans les SOM

¾ sigma grand (grand voisinage) => beaucoup de neurones se rapprochent ¾ utiliser des niveaux de gris pour représenter les distances relatives entre
en même temps de la donnée actuelle vecteurs

¾ sigma petit => adaptativité très localisée

z Commencer par un grand voisinage et le réduire progressivement

Exemple : Carte mondiale de la pauvreté Exemple : Carte mondiale de la pauvreté

9
SOM : bilan Clustering conceptuel

z Robuste aux données incomplètes z Le clustering est réalisé en fonction d’un modèle mathématique
z On construit le treillis de concepts fréquents
z Ajustable aux très grandes bases de données : ¾ Hiérarchie conceptuelle inhérente au données
¾ établissement d'une carte des 78 000 protéïnes de Swiss-Prot en ¾ Chaque concept est un couple : (Extension,Intension)
2000 z L’extension est un ensemble d’objets
z L’intention est l’ensemble maximal d’attributs communs aux objets
¾ regroupement d'environ 7 millions de documents (demandes de ¾ Les concepts sont déterminés par la fermeture de Galois
brevets) z Intension : ensemble fermé d’attributs (ensemble maximal d’attributs commun
aux objets)
z Essentiellement un outil d'analyse exploratoire et de z Extension : ensemble fermé d’objets (si on ajoute un objet, on diminue la taille
de l’extension)
visualisation. z Un concept est fréquent si son extension contient un nombre d’objets
supérieur à un seuil minsup
z Tentatives pour utiliser les SOM à des fin prédictives non
¾ Les concepts fréquents constituent les clusters
concluantes. cf. Michie et al. 1994 (Projet StatLog)

Clustering conceptuel COBWEB

z Le clustering est réalisé à partir d’une relation binaire R

inclus O X A
¾ O : ensemble fini d’objets
¾ A : ensemble fini d’attributs binaires
z Au début, l’arbre consiste en une racine vide
z Les exemples sont ajoutés un par un, et l’arbre est mis à
jour à chaque étape :
¾ Consiste à trouver la bonne feuille pour chaque exemple
(éventuellement en restructurant l’arbre)
¾ Les décisions de mises à jour sont basées sur l’utilité de la
catégorie

Vous aimerez peut-être aussi

CA-Chapitre 3
Pas encore d'évaluation
CA-Chapitre 3
29 pages
Clustering
100% (1)
Clustering
114 pages
Techniques de Clustering
100% (2)
Techniques de Clustering
50 pages
Clustering VF
Pas encore d'évaluation
Clustering VF
70 pages
Clu String
Pas encore d'évaluation
Clu String
32 pages
Chapter 3 Clustering
Pas encore d'évaluation
Chapter 3 Clustering
7 pages
ch3 ML - 221126 - 094552
Pas encore d'évaluation
ch3 ML - 221126 - 094552
41 pages
Cours DM 2 PDF
Pas encore d'évaluation
Cours DM 2 PDF
10 pages
Méthodes de Clustering et Distances
Pas encore d'évaluation
Méthodes de Clustering et Distances
64 pages
Cours 4 Clustering
Pas encore d'évaluation
Cours 4 Clustering
40 pages
Techniques de Clustering en Apprentissage Non Supervisé
Pas encore d'évaluation
Techniques de Clustering en Apprentissage Non Supervisé
38 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
43 pages
Cours Datamining P2
Pas encore d'évaluation
Cours Datamining P2
26 pages
Chap3 Clustering
Pas encore d'évaluation
Chap3 Clustering
48 pages
DM Ch3
Pas encore d'évaluation
DM Ch3
35 pages
Chp3 Les Techniques de Clustering
Pas encore d'évaluation
Chp3 Les Techniques de Clustering
40 pages
4 Clustering
Pas encore d'évaluation
4 Clustering
35 pages
Clustering et Similarité des Données
Pas encore d'évaluation
Clustering et Similarité des Données
57 pages
Apprentissage Non Supervisé
Pas encore d'évaluation
Apprentissage Non Supervisé
101 pages
Introduction à la Fouille de Données
Pas encore d'évaluation
Introduction à la Fouille de Données
12 pages
Techniques de Fouilles de Données
Pas encore d'évaluation
Techniques de Fouilles de Données
110 pages
Méthodes de Classification des Données
Pas encore d'évaluation
Méthodes de Classification des Données
40 pages
Introduction au Clustering et Méthodes
Pas encore d'évaluation
Introduction au Clustering et Méthodes
11 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
10 pages
Techniques de Clustering et Algorithmes
Pas encore d'évaluation
Techniques de Clustering et Algorithmes
47 pages
MID RDF 06
Pas encore d'évaluation
MID RDF 06
107 pages
Présentation Cours CA
Pas encore d'évaluation
Présentation Cours CA
50 pages
Introduction au Clustering
Pas encore d'évaluation
Introduction au Clustering
6 pages
Introduction au Machine Learning et Clustering
Pas encore d'évaluation
Introduction au Machine Learning et Clustering
33 pages
Clustering
Pas encore d'évaluation
Clustering
51 pages
Cours Segmentation
Pas encore d'évaluation
Cours Segmentation
63 pages
Analys
Pas encore d'évaluation
Analys
16 pages
Clustering
Pas encore d'évaluation
Clustering
29 pages
Clustering
Pas encore d'évaluation
Clustering
29 pages
Chapitre V ML Apprentissage Non Supervise
Pas encore d'évaluation
Chapitre V ML Apprentissage Non Supervise
23 pages
Classification Hiérarchique en Clustering
Pas encore d'évaluation
Classification Hiérarchique en Clustering
64 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
61 pages
CHAPITRE4
Pas encore d'évaluation
CHAPITRE4
21 pages
Chapitre3 Classification
Pas encore d'évaluation
Chapitre3 Classification
33 pages
Cours
Pas encore d'évaluation
Cours
13 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
Données et Distances en Informatique
Pas encore d'évaluation
Données et Distances en Informatique
18 pages
Méthodes Dapprentissage Non Supervisées
Pas encore d'évaluation
Méthodes Dapprentissage Non Supervisées
65 pages
Cours Segmentation
Pas encore d'évaluation
Cours Segmentation
43 pages
Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
Pas encore d'évaluation
Chapitre 5 - CHA - SMI - S6 - 2022 - 2023
39 pages
Classification Automatique des Données
Pas encore d'évaluation
Classification Automatique des Données
11 pages
Structures de Donnees Similarites Dissimilarites
100% (1)
Structures de Donnees Similarites Dissimilarites
9 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Chap 5
Pas encore d'évaluation
Chap 5
6 pages
Support Chapitre 2 - Part1 - IA - 1GI - IIT2025
Pas encore d'évaluation
Support Chapitre 2 - Part1 - IA - 1GI - IIT2025
35 pages
Classification non supervisée en BADS
Pas encore d'évaluation
Classification non supervisée en BADS
33 pages
DataMining Chapter 5 Clustering
Pas encore d'évaluation
DataMining Chapter 5 Clustering
63 pages
Clustering
Pas encore d'évaluation
Clustering
50 pages
SPSS : Classification Hiérarchique
Pas encore d'évaluation
SPSS : Classification Hiérarchique
25 pages
Cours 601
Pas encore d'évaluation
Cours 601
18 pages
TP Poo Java 1 2 3 Avec Correction
100% (2)
TP Poo Java 1 2 3 Avec Correction
10 pages
Exam Final-Big Data
100% (9)
Exam Final-Big Data
3 pages
Examen Correction L2 Base de Donnees
89% (74)
Examen Correction L2 Base de Donnees
7 pages
TD 1
60% (5)
TD 1
11 pages
Correction TD 1 - Conception Des Data Warehouses
100% (1)
Correction TD 1 - Conception Des Data Warehouses
7 pages
La Programmation Linéaire EXERCICES CORRIGES
83% (12)
La Programmation Linéaire EXERCICES CORRIGES
32 pages
Exercices Et Corrigés BD - Chapitre 0
89% (9)
Exercices Et Corrigés BD - Chapitre 0
11 pages
EX ML Corrigé CII-3-SSIR A B
83% (6)
EX ML Corrigé CII-3-SSIR A B
4 pages
2 Uml Diagramme de Cas D Utilisation TD
100% (10)
2 Uml Diagramme de Cas D Utilisation TD
4 pages
Exercices SQL Corriges PDF
93% (14)
Exercices SQL Corriges PDF
13 pages
TdNormalisation Corrige
100% (6)
TdNormalisation Corrige
11 pages
Correction TD N°3 UML: Diagramme de Cas D'utilisation
82% (11)
Correction TD N°3 UML: Diagramme de Cas D'utilisation
5 pages
Exercices Merise Avec Corrigés
92% (13)
Exercices Merise Avec Corrigés
7 pages
Examen Deep Learning VF Avec Correction
100% (12)
Examen Deep Learning VF Avec Correction
8 pages
Questionnaire ISTQB Partie 1 Avec Solution
94% (17)
Questionnaire ISTQB Partie 1 Avec Solution
13 pages
Apprendre Le ML en Une Semaine PDF
94% (17)
Apprendre Le ML en Une Semaine PDF
100 pages
Exercices Corrigés Pert
100% (10)
Exercices Corrigés Pert
5 pages
Sujet IA 2022
67% (3)
Sujet IA 2022
2 pages
TD Datawarehouse
100% (8)
TD Datawarehouse
3 pages
Epreuves BTS GL 2024
80% (5)
Epreuves BTS GL 2024
48 pages
EXAMEN - Virtualisation Et Cloud (EXAMEN - CLOUD)
100% (6)
EXAMEN - Virtualisation Et Cloud (EXAMEN - CLOUD)
13 pages
Corrigé Épreuve Examen DATAWAREHOUSE
100% (4)
Corrigé Épreuve Examen DATAWAREHOUSE
4 pages
Java Exercice Corrigé IGE
100% (7)
Java Exercice Corrigé IGE
83 pages
Examen1+Solution Architecture Des Ordinateurs
89% (9)
Examen1+Solution Architecture Des Ordinateurs
7 pages
TD MCD MLD Solution
100% (3)
TD MCD MLD Solution
5 pages
Excercices Corrigés Réseau de Neurones
80% (10)
Excercices Corrigés Réseau de Neurones
5 pages
Exo2mcd Corrigé
100% (11)
Exo2mcd Corrigé
6 pages
Corrigé UML Examen de Fin de Formation 2013
82% (11)
Corrigé UML Examen de Fin de Formation 2013
4 pages
Exercice Corrigé Recherche Opérationnelle PDF
82% (144)
Exercice Corrigé Recherche Opérationnelle PDF
6 pages
Exercices ACP
86% (7)
Exercices ACP
9 pages
TD 1 Tableau de Bord-1
Pas encore d'évaluation
TD 1 Tableau de Bord-1
2 pages
Exam SQL
Pas encore d'évaluation
Exam SQL
5 pages
Exam SQL
Pas encore d'évaluation
Exam SQL
3 pages
Résumé Sensibilisation
Pas encore d'évaluation
Résumé Sensibilisation
2 pages
Org Partie2
Pas encore d'évaluation
Org Partie2
15 pages
Etude de Cas Biscuiterie
Pas encore d'évaluation
Etude de Cas Biscuiterie
2 pages
Introduction au Droit Bancaire au Maroc
Pas encore d'évaluation
Introduction au Droit Bancaire au Maroc
31 pages
Org Partie1
Pas encore d'évaluation
Org Partie1
69 pages
Résumé Analyse Transactionnelle
Pas encore d'évaluation
Résumé Analyse Transactionnelle
3 pages
Cas Seuill de Rentabilité
Pas encore d'évaluation
Cas Seuill de Rentabilité
18 pages
Fiches de MR SABOUR Bac Blanc PC
Pas encore d'évaluation
Fiches de MR SABOUR Bac Blanc PC
9 pages
QCM UML et BPMN : Concepts Clés et Différences
Pas encore d'évaluation
QCM UML et BPMN : Concepts Clés et Différences
40 pages
Modélisation Merise et Requêtes SQL
100% (1)
Modélisation Merise et Requêtes SQL
2 pages
TD Estimation
Pas encore d'évaluation
TD Estimation
2 pages
Modélisation Merise et SQL pour Projets
Pas encore d'évaluation
Modélisation Merise et SQL pour Projets
5 pages
2014 2015 Eg l1 s1 CC Microeconomie Correction
Pas encore d'évaluation
2014 2015 Eg l1 s1 CC Microeconomie Correction
7 pages
Valorisation des actifs financiers
Pas encore d'évaluation
Valorisation des actifs financiers
62 pages
Pricing Des Optionsfinal
Pas encore d'évaluation
Pricing Des Optionsfinal
31 pages
TD Avantage Comparatifs Et Absolus
Pas encore d'évaluation
TD Avantage Comparatifs Et Absolus
3 pages
Rattrapage Réseaux et Transmission GEI
Pas encore d'évaluation
Rattrapage Réseaux et Transmission GEI
3 pages
Examen Statistiques 2 Bac Eco 2013 Session Normale Corrige
Pas encore d'évaluation
Examen Statistiques 2 Bac Eco 2013 Session Normale Corrige
5 pages
Calculs Stochastiques FID 2019-2020
Pas encore d'évaluation
Calculs Stochastiques FID 2019-2020
25 pages
Les Examens (2014 - 2022)
Pas encore d'évaluation
Les Examens (2014 - 2022)
10 pages
Cours JAVA 5 - Exception
Pas encore d'évaluation
Cours JAVA 5 - Exception
38 pages
Session1 2011 2012
Pas encore d'évaluation
Session1 2011 2012
6 pages
Chap3 Pipeline
Pas encore d'évaluation
Chap3 Pipeline
31 pages
Ievs VF
Pas encore d'évaluation
Ievs VF
29 pages
Scénario Pour ENSEIGNANTS Jeu Du Pendu PDF
Pas encore d'évaluation
Scénario Pour ENSEIGNANTS Jeu Du Pendu PDF
10 pages
Raffinement Partition
Pas encore d'évaluation
Raffinement Partition
32 pages
IWG REGUS GROUP 2024-Public
Pas encore d'évaluation
IWG REGUS GROUP 2024-Public
36 pages
Étude du dipôle RC en électricité
Pas encore d'évaluation
Étude du dipôle RC en électricité
7 pages
Atelier 1 Initiation
Pas encore d'évaluation
Atelier 1 Initiation
7 pages
Guide Technique du Contrat Alliage
Pas encore d'évaluation
Guide Technique du Contrat Alliage
21 pages
Appareils Pour Mesurer Les Etats de Surface Appareils Pour Mesurer Les Etats de Surface
Pas encore d'évaluation
Appareils Pour Mesurer Les Etats de Surface Appareils Pour Mesurer Les Etats de Surface
1 page
Plan Analytique Structure 092385100 2245 21052014
Pas encore d'évaluation
Plan Analytique Structure 092385100 2245 21052014
10 pages
Cours - Algorithmes Des Arbres
Pas encore d'évaluation
Cours - Algorithmes Des Arbres
31 pages
Config Depannage PC
100% (1)
Config Depannage PC
33 pages
Bochra EL KATEB: Expériences Professionelles
Pas encore d'évaluation
Bochra EL KATEB: Expériences Professionelles
2 pages
Introduction Générale: Statistique Et Probabilités S2
Pas encore d'évaluation
Introduction Générale: Statistique Et Probabilités S2
10 pages
Cadrage Et Pilotage D Un Projet de Data Science
Pas encore d'évaluation
Cadrage Et Pilotage D Un Projet de Data Science
4 pages
td5 2024
Pas encore d'évaluation
td5 2024
2 pages
Présentation Module GUCE 18022023
Pas encore d'évaluation
Présentation Module GUCE 18022023
37 pages
IA et Génie Logiciel : Défis et Opportunités
Pas encore d'évaluation
IA et Génie Logiciel : Défis et Opportunités
5 pages
Mini Projet SIG & Carto 24-25
Pas encore d'évaluation
Mini Projet SIG & Carto 24-25
6 pages
EasyEda Manual 005 PDF
Pas encore d'évaluation
EasyEda Manual 005 PDF
16 pages
Sujet Compta Bedy N°024
Pas encore d'évaluation
Sujet Compta Bedy N°024
3 pages
6 Cah
Pas encore d'évaluation
6 Cah
13 pages
Classification Et Évaluation
Pas encore d'évaluation
Classification Et Évaluation
52 pages
Cours Chapitre-Ii D'automatisme Industriel Iia3 - 014234
Pas encore d'évaluation
Cours Chapitre-Ii D'automatisme Industriel Iia3 - 014234
34 pages
Cours 4 - Introduction À l'UML - Cas D'utilisation
Pas encore d'évaluation
Cours 4 - Introduction À l'UML - Cas D'utilisation
46 pages
Planification d'un projet d'imprimante
Pas encore d'évaluation
Planification d'un projet d'imprimante
5 pages
Facture - Psc-2022-201385 - M. Et Mme Pezziardi PDF
100% (1)
Facture - Psc-2022-201385 - M. Et Mme Pezziardi PDF
1 page
Support de Cours AUTOCAD 2D - Niveau Initiation
Pas encore d'évaluation
Support de Cours AUTOCAD 2D - Niveau Initiation
73 pages
5IN2554 Configuration Software Installation and User Manual FR WEB
Pas encore d'évaluation
5IN2554 Configuration Software Installation and User Manual FR WEB
87 pages
TP Java Card 1 - 2 - Utilisation Du Javacard Development Kit 2.2
Pas encore d'évaluation
TP Java Card 1 - 2 - Utilisation Du Javacard Development Kit 2.2
12 pages