0% ont trouvé ce document utile (0 vote)
198 vues18 pages

Data Mining CAH

Transféré par

Akrem Zouabi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
198 vues18 pages

Data Mining CAH

Transféré par

Akrem Zouabi
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PPTX, PDF, TXT ou lisez en ligne sur Scribd

Data Mining

Apprentissage non supervisé


Techniques de Data Mining
Apprentissage Non Supervisé Apprentissage supervisé
Analyse descriptive Analyse prédictive

 Fournir directement des résultats : à interpréter  Fournir un modèle (et non pas des résultats),
et à utiliser .
créé à partir d’un entrepôt d’apprentissage,
 Mettre en évidence des connaissances testé et validé sur un entrepôt de test, et utilisé
présentes mais cachées par le volume des dans les problèmes de prise de décision sur des
données.
entrepôts de travail
 Réduire, résumer, synthétiser les masses de
données.  visent à découvrir de nouvelles informations à
 Pas de variable « cible » partir des informations présentes :
connaissances, décisions
 expliquent mieux les données
 Une ou plusieurs variables « cibles»
Apprentissage Non Supervisé
Analyse descriptive
Classification Ascendante Hiérarchique
CAH
Classification Ascendante Hiérarchique
• La classification s’intéresse à des tableaux
de données individus ×variables quantitatives

• Objectifs: production d’une structure (arborescence)


permettant :
 La mise en évidence de liens hiérarchique entre individus
Ou groupes d’individus,
 La détection d’un nombre de classes
« naturel » au sein de la population
CAH - Algorithme
Définir une mesure de distance entre
Entrée : tableau de données (X) individus
Sortie : Indicateur de partition des individus

Calcul du tableau des distances entre individus


Chaque individu constitue un groupe (classe) Définir une stratégie d’agrégation c.-à-d.
REPETER une mesure de dissimilarité entre groupes
Détecter les 2 groupes les plus proches
(entre un individu et un groupe)
Les agréger pour n’en former qu’un seul
JUSQU’À tous les individus forment un seul groupe

Identifier le nombre adéquat de groupes


Procéder au partitionnement De quel outil peut-on disposer pour
identifier la «bonne» partition ?
Dendrogramme.
Critères de ressemblance
Ressemblance entre individus:
 distance euclidienne
 indice de similarités
…

Ressemblance entre groupes d’individus:


 saut minimum ou lien simple (plus petite distance)
 lien complet (plus grande distance)
 Critère de Ward ( à voir)
Algorithme – Calcul des distances

• Déterminer la matrice des distance


• Chercher la plus petite destance
Algorithme – Calcul des distances
Algorithme
Algorithme
Algorithme
Algorithme
Arbres et partitions
• On définit un niveau de coupure sur l’arbre
• On construit une partition.

Remarque: vu le mode de construction


La partition n’est pas optimale mais
intéressante.
Qualité d’une partition
• Une partition est bonne:
Si les individus d’une même classe sont proches
Si les individus de 2 classes différentes sont éloignés

• Mathématiquement:
Variabilité intra-classe petite
Variabilité inter-classe grande
Qualité d’une partition
Qualité d’une partition
Qualité d’une partition
• Méthode de Ward:
Initialisation: 1 classe = 1 individu Inertie inter =1
A chaque étape: agréger les classes a et b qui minimisent la
diminution de l’inertie inter.

Vous aimerez peut-être aussi