Data Mining
Apprentissage non supervisé
Techniques de Data Mining
Apprentissage Non Supervisé Apprentissage supervisé
Analyse descriptive Analyse prédictive
Fournir directement des résultats : à interpréter Fournir un modèle (et non pas des résultats),
et à utiliser .
créé à partir d’un entrepôt d’apprentissage,
Mettre en évidence des connaissances testé et validé sur un entrepôt de test, et utilisé
présentes mais cachées par le volume des dans les problèmes de prise de décision sur des
données.
entrepôts de travail
Réduire, résumer, synthétiser les masses de
données. visent à découvrir de nouvelles informations à
Pas de variable « cible » partir des informations présentes :
connaissances, décisions
expliquent mieux les données
Une ou plusieurs variables « cibles»
Apprentissage Non Supervisé
Analyse descriptive
Classification Ascendante Hiérarchique
CAH
Classification Ascendante Hiérarchique
• La classification s’intéresse à des tableaux
de données individus ×variables quantitatives
• Objectifs: production d’une structure (arborescence)
permettant :
La mise en évidence de liens hiérarchique entre individus
Ou groupes d’individus,
La détection d’un nombre de classes
« naturel » au sein de la population
CAH - Algorithme
Définir une mesure de distance entre
Entrée : tableau de données (X) individus
Sortie : Indicateur de partition des individus
Calcul du tableau des distances entre individus
Chaque individu constitue un groupe (classe) Définir une stratégie d’agrégation c.-à-d.
REPETER une mesure de dissimilarité entre groupes
Détecter les 2 groupes les plus proches
(entre un individu et un groupe)
Les agréger pour n’en former qu’un seul
JUSQU’À tous les individus forment un seul groupe
Identifier le nombre adéquat de groupes
Procéder au partitionnement De quel outil peut-on disposer pour
identifier la «bonne» partition ?
Dendrogramme.
Critères de ressemblance
Ressemblance entre individus:
distance euclidienne
indice de similarités
…
Ressemblance entre groupes d’individus:
saut minimum ou lien simple (plus petite distance)
lien complet (plus grande distance)
Critère de Ward ( à voir)
Algorithme – Calcul des distances
• Déterminer la matrice des distance
• Chercher la plus petite destance
Algorithme – Calcul des distances
Algorithme
Algorithme
Algorithme
Algorithme
Arbres et partitions
• On définit un niveau de coupure sur l’arbre
• On construit une partition.
Remarque: vu le mode de construction
La partition n’est pas optimale mais
intéressante.
Qualité d’une partition
• Une partition est bonne:
Si les individus d’une même classe sont proches
Si les individus de 2 classes différentes sont éloignés
• Mathématiquement:
Variabilité intra-classe petite
Variabilité inter-classe grande
Qualité d’une partition
Qualité d’une partition
Qualité d’une partition
• Méthode de Ward:
Initialisation: 1 classe = 1 individu Inertie inter =1
A chaque étape: agréger les classes a et b qui minimisent la
diminution de l’inertie inter.