0% ont trouvé ce document utile (0 vote)
15 vues18 pages

Données et Distances en Informatique

Le document présente un cours sur la représentation et la normalisation des données, ainsi que les différentes mesures de distance entre objets et clusters. Il aborde les propriétés des distances, les types de données et les méthodes de calcul des distances, y compris pour les données numériques et binaires. Enfin, il décrit les concepts de centroïde et de médoïde dans le contexte des clusters, ainsi que les mesures de similarité entre clusters.

Transféré par

Etablissement ELHANNA
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
15 vues18 pages

Données et Distances en Informatique

Le document présente un cours sur la représentation et la normalisation des données, ainsi que les différentes mesures de distance entre objets et clusters. Il aborde les propriétés des distances, les types de données et les méthodes de calcul des distances, y compris pour les données numériques et binaires. Enfin, il décrit les concepts de centroïde et de médoïde dans le contexte des clusters, ainsi que les mesures de similarité entre clusters.

Transféré par

Etablissement ELHANNA
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université de Blida

Département d’informatique
Master 1-IL

Cours3: Les données et les


distances.

Mme Fareh
2015/2016

04/03/2016 1
Plan
1. Représentation des données
2. Normalisation des données
Exemple
3. Distance
4. Les différents types de distance
4.1. entre les données
4.2. entre les clusters
4.3. exemples
04/03/2016 2
Représentation des données

n: le nombre d’objets
p: le nombre d’attributs
X ij :est la valeur de l’attribut j de l’objet i
04/03/2016 3
La distance
 La distance est une mesure qui précise la
similarité des objets (métrique).
 Fonction de distance dépend du type des
données : binaires, nominales ou
continues
 Définir une distance sur chacun des
champs
 Pondération des dimensions selon
l’application et la sémantique des données
04/03/2016 4
Propriétés de la distance

 d(i,i) =0
 d(i,j) ≥ 0 (positive)
 d(i,j) = d(j,i) (symétrique)
 d(i,j) ≤ d(i,k) + d(k,j) (inégalité triangulaire)

04/03/2016 5
Matrice de distance
Quelles sont les propriétés de la matrice de distance?

04/03/2016 6
Matrice de distance

 Matrice carrée
 Valeurs nulles sur la diagonale
 Matrice symétrique
 Les valeurs sont positives

04/03/2016 7
Valeurs continues sur un
intervalle: normalisation
 Normaliser les données : s’affranchir des unités de
mesures.
 2 phases:
1. Trouver la déviation moyenne Sf pour tous les objets:
on dispose de n objet et de k attribut, mf est la
moyenne de l’attribut f.

2. Calculer la mesure normalisée (z)

04/03/2016 8
Exemple: normaliser les valeurs de l’
Attribut1
Attribut brut Attribut normalisé

Attribut1 attribut2 Attribut1 Attribut2

Objet1 23 … ?

Objet 2 55 ?

Objet 3 48 ?

Objet 4 36 ?

Objet 5 67 ?

Objet 6 41 ?

04/03/2016 9
Fonction de distance
 Données numériques:
1. Distance euclidienne

2. Distance de Manhattan

avec i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) deux objets à p dimensions
04/03/2016 10
Données binaires
 Table de contingence

la variable symétrique la variable asymétrique

04/03/2016 11
Exemple
Ali
Karim
Mohamed

Les attributs sont asymétrique

d(Ali, Karim)=

d(Ali, Mohamed)=

d(Mohamed, Karim)=
04/03/2016 12
Fonction de distance
 Données binaires:
Ød(0,0)=d(1,1)=0

Ød(0,1)=d(1,0)=1

 Donnée énumératives:
Ødistance nulle si les valeurs sont
égales
Ø1 sinon.
04/03/2016 13
La distance
 Attribut nominaux:

Jaccard(S,T)=

04/03/2016 14
Représentation d’un cluster
 Le centroide: le centre logique du cluster
(vecteur moyen des éléments du cluster), il
peut correspondre à un certain cas à un
élément du cluster.
 Le médoide (médiane): l’un des objet du
cluster qui est proche de la notion du
centroide.
 Un ensemble d’objet: est un listing de
l’ensemble des objet du cluster
04/03/2016 15
Mesures de similarité entre 2
clusters
 Lien simple (single linkage) : la plus petite
distance entre les éléments des 2 clusters

04/03/2016 16
Mesures de similarité entre 2
clusters
 Lien moyen (average linkage): similarité
moyenne entre les éléments des deux
clusters.

04/03/2016 17
Mesures de similarité entre 2
clusters
 Lien complet (complete linkage): la plus
grande distance entre tous les éléments des
2 clusters.

04/03/2016 18

Vous aimerez peut-être aussi