100% ont trouvé ce document utile (1 vote)
79 vues9 pages

Structures de Donnees Similarites Dissimilarites

Le document décrit différentes structures de données et mesures de similarité/dissimilarité utilisées pour comparer des objets décrits par plusieurs variables, notamment des matrices de données, des matrices de similarité, et des méthodes pour standardiser les données avant le calcul des similarités.

Transféré par

nidhal Kissoum
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
100% ont trouvé ce document utile (1 vote)
79 vues9 pages

Structures de Donnees Similarites Dissimilarites

Le document décrit différentes structures de données et mesures de similarité/dissimilarité utilisées pour comparer des objets décrits par plusieurs variables, notamment des matrices de données, des matrices de similarité, et des méthodes pour standardiser les données avant le calcul des similarités.

Transféré par

nidhal Kissoum
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Structures de données

• Matrice de données  x11 ... x1f ... x1p 


 
 ... ... ... ... ... 
x ... xif ... x ip 
 i1 
 ... ... ... ... ... 
x ... xnf ... x np 
• Matrice de similarité  n1 
 0 
 d(2,1) 0 
 
 d(3,1) d ( 3, 2 ) 0 
 
 : : : 
d ( n,1) d ( n, 2 ) ... ... 0
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
Distances, similarités

• Avant de calculer les similarités (dissimilarités)


standardiser les données

mesures de similrités/dissimilrités FD1/M1BIO_INFO


FEV2024 Dr S. Baba Ali
pour des mesures continues

Pour Standardiser les données


• Calculer l’écart absolu moyen:

s f  1n (| x1 f  m f |  | x2 f  m f | ... | xnf  m f |)

m f  1n (x1 f  x2 f  ...  xnf ).

• Calculer la mesure standardisée (z-score)


xif  m f
zif  sf
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
Moyenne ecart absolu moyen
Age Salaire
Personne1 50 11000
M Age  60 S Age  5
Personne2 70 11100
Personne3 60 11122 M salaire  11074 S salaire  148
Personne4 60 11074
Age Salaire
Personne1 -2 -0,5
Personne2 2 0,175
Personne3 0 0,324
Personne4 0 2

mesures de similrités/dissimilrités FD1/M1BIO_INFO


FEV2024 Dr S. Baba Ali
• Une table de contingence pour données
binaires
1 0 sum
1 a b a b a= nombre de positions où
0 c d cd objet i a 1 et objet j a 1
sum a  c b  d p
• Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)
a=1, b=2, c=1, d=1
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
La dissimilarité est definie par:

d (i, j)  b  c
a bc  d

Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)


d(oi, oj)=3/5 (dissimilarité)
Coefficient de Jaccard= d (i, j )  bc
a  b  FD1/M1BIO_INFO
mesures de similrités/dissimilrités c
d(oi, oj)=3/4 FEV2024 Dr S. Baba Ali
Varibles nominles
m: nbre d’appariements,
p: nbre total de variables

d (i, j)  p 
p
m

Méthode 2: utiliser un grand nombre de


variables binaires
Créer une variable binaire pour chaque
modalité (ex: variable rouge qui prend les
valeurs vrai ou faux)
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
En Présence de Variables de différents Types
• Pour chaque type de variables utiliser une mesure adéquate.
Problèmes: les clusters obtenus peuvent être différents
• On utilise une formule pondérée pour faire la combinaison
 pf  1 ij( f ) dij( f )
d (i, j ) 
 pf  1 ij( f )
– f est binaire ou nominale:
dij(f) = 0 si xif = xjf , sinon dij(f) = 1
– f est de type intervalle: utiliser une distance normalisée

mesures de similrités/dissimilrités FD1/M1BIO_INFO


FEV2024 Dr S. Baba Ali
Les distances expriment une similarité
Ex: la distance de Minkowski :
d (i, j)  q (| x  x |q  | x  x |q ... | x  x |q )
i1 j1 i2 j2 ip jp

où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux objets p-


dimensionnels et q un entier positif
Si q = 1, d est la distance de Manhattan
d (i, j) | x  x |  | x  x | ... | x  x |
i1 j1 i2 j 2 ip jp

Si q=2 c’est l distnce euclidienne


mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali

Vous aimerez peut-être aussi