Université de Blida
Département d’informatique
Master 1-IL
Cours3: Les données et les
distances.
Mme Fareh
2015/2016
04/03/2016 1
Plan
1. Représentation des données
2. Normalisation des données
Exemple
3. Distance
4. Les différents types de distance
4.1. entre les données
4.2. entre les clusters
4.3. exemples
04/03/2016 2
Représentation des données
n: le nombre d’objets
p: le nombre d’attributs
X ij :est la valeur de l’attribut j de l’objet i
04/03/2016 3
La distance
La distance est une mesure qui précise la
similarité des objets (métrique).
Fonction de distance dépend du type des
données : binaires, nominales ou
continues
Définir une distance sur chacun des
champs
Pondération des dimensions selon
l’application et la sémantique des données
04/03/2016 4
Propriétés de la distance
d(i,i) =0
d(i,j) ≥ 0 (positive)
d(i,j) = d(j,i) (symétrique)
d(i,j) ≤ d(i,k) + d(k,j) (inégalité triangulaire)
04/03/2016 5
Matrice de distance
Quelles sont les propriétés de la matrice de distance?
04/03/2016 6
Matrice de distance
Matrice carrée
Valeurs nulles sur la diagonale
Matrice symétrique
Les valeurs sont positives
04/03/2016 7
Valeurs continues sur un
intervalle: normalisation
Normaliser les données : s’affranchir des unités de
mesures.
2 phases:
1. Trouver la déviation moyenne Sf pour tous les objets:
on dispose de n objet et de k attribut, mf est la
moyenne de l’attribut f.
2. Calculer la mesure normalisée (z)
04/03/2016 8
Exemple: normaliser les valeurs de l’
Attribut1
Attribut brut Attribut normalisé
Attribut1 attribut2 Attribut1 Attribut2
Objet1 23 … ?
Objet 2 55 ?
Objet 3 48 ?
Objet 4 36 ?
Objet 5 67 ?
Objet 6 41 ?
04/03/2016 9
Fonction de distance
Données numériques:
1. Distance euclidienne
2. Distance de Manhattan
avec i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) deux objets à p dimensions
04/03/2016 10
Données binaires
Table de contingence
la variable symétrique la variable asymétrique
04/03/2016 11
Exemple
Ali
Karim
Mohamed
Les attributs sont asymétrique
d(Ali, Karim)=
d(Ali, Mohamed)=
d(Mohamed, Karim)=
04/03/2016 12
Fonction de distance
Données binaires:
Ød(0,0)=d(1,1)=0
Ød(0,1)=d(1,0)=1
Donnée énumératives:
Ødistance nulle si les valeurs sont
égales
Ø1 sinon.
04/03/2016 13
La distance
Attribut nominaux:
Jaccard(S,T)=
04/03/2016 14
Représentation d’un cluster
Le centroide: le centre logique du cluster
(vecteur moyen des éléments du cluster), il
peut correspondre à un certain cas à un
élément du cluster.
Le médoide (médiane): l’un des objet du
cluster qui est proche de la notion du
centroide.
Un ensemble d’objet: est un listing de
l’ensemble des objet du cluster
04/03/2016 15
Mesures de similarité entre 2
clusters
Lien simple (single linkage) : la plus petite
distance entre les éléments des 2 clusters
04/03/2016 16
Mesures de similarité entre 2
clusters
Lien moyen (average linkage): similarité
moyenne entre les éléments des deux
clusters.
04/03/2016 17
Mesures de similarité entre 2
clusters
Lien complet (complete linkage): la plus
grande distance entre tous les éléments des
2 clusters.
04/03/2016 18