Structures de données
• Matrice de données x11 ... x1f ... x1p
... ... ... ... ...
x ... xif ... x ip
i1
... ... ... ... ...
x ... xnf ... x np
• Matrice de similarité n1
0
d(2,1) 0
d(3,1) d ( 3, 2 ) 0
: : :
d ( n,1) d ( n, 2 ) ... ... 0
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
Distances, similarités
• Avant de calculer les similarités (dissimilarités)
standardiser les données
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
pour des mesures continues
Pour Standardiser les données
• Calculer l’écart absolu moyen:
s f 1n (| x1 f m f | | x2 f m f | ... | xnf m f |)
Où
m f 1n (x1 f x2 f ... xnf ).
• Calculer la mesure standardisée (z-score)
xif m f
zif sf
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
Moyenne ecart absolu moyen
Age Salaire
Personne1 50 11000
M Age 60 S Age 5
Personne2 70 11100
Personne3 60 11122 M salaire 11074 S salaire 148
Personne4 60 11074
Age Salaire
Personne1 -2 -0,5
Personne2 2 0,175
Personne3 0 0,324
Personne4 0 2
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
• Une table de contingence pour données
binaires
1 0 sum
1 a b a b a= nombre de positions où
0 c d cd objet i a 1 et objet j a 1
sum a c b d p
• Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)
a=1, b=2, c=1, d=1
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
La dissimilarité est definie par:
d (i, j) b c
a bc d
Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)
d(oi, oj)=3/5 (dissimilarité)
Coefficient de Jaccard= d (i, j ) bc
a b FD1/M1BIO_INFO
mesures de similrités/dissimilrités c
d(oi, oj)=3/4 FEV2024 Dr S. Baba Ali
Varibles nominles
m: nbre d’appariements,
p: nbre total de variables
d (i, j) p
p
m
Méthode 2: utiliser un grand nombre de
variables binaires
Créer une variable binaire pour chaque
modalité (ex: variable rouge qui prend les
valeurs vrai ou faux)
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
En Présence de Variables de différents Types
• Pour chaque type de variables utiliser une mesure adéquate.
Problèmes: les clusters obtenus peuvent être différents
• On utilise une formule pondérée pour faire la combinaison
pf 1 ij( f ) dij( f )
d (i, j )
pf 1 ij( f )
– f est binaire ou nominale:
dij(f) = 0 si xif = xjf , sinon dij(f) = 1
– f est de type intervalle: utiliser une distance normalisée
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali
Les distances expriment une similarité
Ex: la distance de Minkowski :
d (i, j) q (| x x |q | x x |q ... | x x |q )
i1 j1 i2 j2 ip jp
où i = (xi1, xi2, …, xip) et j = (xj1, xj2, …, xjp) sont deux objets p-
dimensionnels et q un entier positif
Si q = 1, d est la distance de Manhattan
d (i, j) | x x | | x x | ... | x x |
i1 j1 i2 j 2 ip jp
Si q=2 c’est l distnce euclidienne
mesures de similrités/dissimilrités FD1/M1BIO_INFO
FEV2024 Dr S. Baba Ali