Apprentissage Non Supervisé
Apprentissage Non Supervisé
1 College of Computing
Définition :
L’apprentissage non supervisé consiste à analyser des données
sans étiquettes pour en extraire des structures ou motifs
sous-jacents.
Contrairement à l’apprentissage supervisé, il n’existe pas de
sortie cible prédéfinie.
Objectifs principaux :
Découverte de groupes similaires (clustering).
Réduction de dimensionnalité (compression des données).
Analyse des relations entre variables.
1. Clustering :
k-means : Partitionne les données en k groupes pour minimiser la
variance intra-groupe.
Clustering hiérarchique : Construit une hiérarchie de groupes
(fusion ou division).
DBSCAN : Détecte des groupes denses et identifie les points
isolés.
2. Réduction de dimension :
ACP (Analyse en Composantes Principales) : Réduit les
dimensions tout en conservant la variance maximale.
t-SNE : Visualise les données en deux ou trois dimensions.
Autoencodeurs : Utilise les réseaux neuronaux pour compresser
et reconstruire les données.
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 3 / 57
Applications de l’Apprentissage Non Supervisé
2. Détection d’anomalies :
Identifier des transactions frauduleuses ou des événements
inhabituels.
3. Bioinformatique :
Analyse de données génomiques (groupement de gènes ou
protéines).
4. Recommandations :
Utiliser le clustering pour proposer des produits ou contenus
similaires.
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 4 / 57
Distance et Similarité entre Deux Observations
Un défi clé :
Cette étape est souvent la plus difficile, mais elle est essentielle
pour toute analyse de partitionnement.
Notes :
La distance euclidienne est sensible aux échelles : standardisation
nécessaire.
Les distances comme Gower permettent d’analyser des données mixtes
(numériques et catégoriques).
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 10 / 57
Overview of clustering methods
Mesures de Distance
Mesures de Distance
où :
µk = moyenne de la variable k ;
sk = écart-type de la variable k.
où :
µk = moyenne de la variable k ;
sk = écart-type de la variable k.
Avantage : La standardisation élimine l’influence de l’unité de mesure.
Distances (standardisées) peu importe l’unité :
où :
µk = moyenne de la variable k ;
sk = écart-type de la variable k.
Avantage : La standardisation élimine l’influence de l’unité de mesure.
Distances (standardisées) peu importe l’unité :
Indices de Similarité
Indices de Similarité
Définition : Dissemblance
Définition : Dissemblance
Définition : Dissemblance
Variables Numériques
Définition :
Les variables numériques mesurent des quantités.
Les différences entre les valeurs reflètent les différences entre les
objets.
Variables Numériques
Définition :
Les variables numériques mesurent des quantités.
Les différences entre les valeurs reflètent les différences entre les
objets.
Exemples :
Revenu (en dollars) ;
Masse (en kilogrammes) ;
Âge (en années).
Variables Numériques
Définition :
Les variables numériques mesurent des quantités.
Les différences entre les valeurs reflètent les différences entre les
objets.
Exemples :
Revenu (en dollars) ;
Masse (en kilogrammes) ;
Âge (en années).
Distance utilisée : Distance euclidienne standardisée
p
xik − xjk 2
2
d (xi , xj ) = ∑ ,
k=1 sk
où :
sk est l’écart-type de la variable k.
Variables Numériques
Définition :
Les variables numériques mesurent des quantités.
Les différences entre les valeurs reflètent les différences entre les
objets.
Exemples :
Revenu (en dollars) ;
Masse (en kilogrammes) ;
Âge (en années).
Distance utilisée : Distance euclidienne standardisée
p
xik − xjk 2
2
d (xi , xj ) = ∑ ,
k=1 sk
où :
sk est l’écart-type de la variable k.
Avantage : La standardisation permet d’éliminer l’effet de l’échelle des
variables.
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 16 / 57
Overview of clustering methods
Variables Nominales
Définition :
Les variables nominales sont qualitatives (non numériques et non
ordinales).
Deux types :
Binaires : Deux modalités (e.g., sexe : homme/femme).
Polytomiques : Plus de deux modalités (e.g., section d’un cours).
Variables Nominales
Définition :
Les variables nominales sont qualitatives (non numériques et non
ordinales).
Deux types :
Binaires : Deux modalités (e.g., sexe : homme/femme).
Polytomiques : Plus de deux modalités (e.g., section d’un cours).
Symétriques :
Toutes les modalités ont le même niveau d’information.
Exemples : sexe, section de cours.
Variables Nominales
Définition :
Les variables nominales sont qualitatives (non numériques et non
ordinales).
Deux types :
Binaires : Deux modalités (e.g., sexe : homme/femme).
Polytomiques : Plus de deux modalités (e.g., section d’un cours).
Symétriques :
Toutes les modalités ont le même niveau d’information.
Exemples : sexe, section de cours.
Asymétriques :
Les modalités n’ont pas le même niveau d’information.
Exemples :
Daltonisme (oui/non) : "Oui" est informatif, "Non" ne l’est pas.
Fraude (oui/non) : "Oui" contient plus d’information que "Non".
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 17 / 57
Overview of clustering methods
Définition :
Les variables binaires symétriques ont des modalités (0/1)
également informatives.
Exemple : Réponses à des questions Oui/Non.
Définition :
Les variables binaires symétriques ont des modalités (0/1)
également informatives.
Exemple : Réponses à des questions Oui/Non.
Proportion d’accords : Matching coefficient
Si p est le nombre de variables mesurées pour deux individus i et
j,
p
m= ∑ I(xik = xjk ),
k=1
Exemple :
Individu Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10
i 1 0 0 0 0 1 0 0 0 0
j 1 0 0 0 0 0 1 0 0 0
8
s(i, j) = = 0.8.
10
Exemple :
Individu Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10
i 1 0 0 0 0 1 0 0 0 0
j 1 0 0 0 0 0 1 0 0 0
8
s(i, j) =
= 0.8.
10
Ici, les deux individus ont la même réponse sur 8 des 10 questions.
Définition :
Les variables binaires asymétriques ont des modalités où 1 est
rare ou plus informative.
Exemple : Présence/absence d’une caractéristique rare.
Définition :
Les variables binaires asymétriques ont des modalités où 1 est
rare ou plus informative.
Exemple : Présence/absence d’une caractéristique rare.
Indice de Jaccard :
Similitude définie comme :
p
∑k=1 xik xjk
J(i, j) = p .
∑k=1 {1 − (1 − xik )(1 − xjk )}
Exemple :
Individu Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10
i 1 0 0 0 0 1 0 0 0 0
j 1 0 0 0 0 0 1 0 0 0
1
J(i, j) = = 0.33.
3
Exemple :
Individu Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10
i 1 0 0 0 0 1 0 0 0 0
j 1 0 0 0 0 0 1 0 0 0
1
J(i, j) =
= 0.33.
3
Ici, seules les questions Q1, Q6, et Q7 comptent, car i ou j ont 1. Ils
sont en accord une seule fois.
Définition :
Lorsque plusieurs variables nominales binaires ou polytomiques
(q) de même nature sont disponibles, on calcule la similarité
séparément pour chacune d’elles.
La similarité globale est ensuite la moyenne des q similarités.
Définition :
Lorsque plusieurs variables nominales binaires ou polytomiques
(q) de même nature sont disponibles, on calcule la similarité
séparément pour chacune d’elles.
La similarité globale est ensuite la moyenne des q similarités.
Exemple :
Individu Q1a Q1b Q1c Q2a Q2b Q2c
i 0 1 0 0 1 0
j 0 1 0 0 0 1
Définition :
Lorsque plusieurs variables nominales binaires ou polytomiques
(q) de même nature sont disponibles, on calcule la similarité
séparément pour chacune d’elles.
La similarité globale est ensuite la moyenne des q similarités.
Exemple :
Individu Q1a Q1b Q1c Q2a Q2b Q2c
i 0 1 0 0 1 0
j 0 1 0 0 0 1
Similarité pour une question (Q) :
Modalités identiques
sQ (i, j) = .
Nombre total de modalités pour Q
La similarité globale est :
sQ1 (i, j) + sQ2 (i, j)
s(i, j) = .
2
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 22 / 57
Overview of clustering methods
1. Calcul pour Q1 :
Modalités (Q1a, Q1b, Q1c) :
1. Calcul pour Q1 :
Modalités (Q1a, Q1b, Q1c) :
1 + 31 4 2
s(i, j) = = = .
2 6 3
1 + 31 4 2
s(i, j) = = = .
2 6 3
Conclusion :
La similarité globale tient compte de toutes les modalités, qu’elles
soient activées (1) ou non (0).
Cela garantit une mesure cohérente entre les individus.
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 24 / 57
Overview of clustering methods
Hypothèse :
Les variables correspondant à Q1 sont symétriques.
Les variables correspondant à Q2 sont asymétriques.
Hypothèse :
Les variables correspondant à Q1 sont symétriques.
Les variables correspondant à Q2 sont asymétriques.
Données des individus :
Individu Q2a Q2b Q2c
i 0 1 0
j 0 0 1
Hypothèse :
Les variables correspondant à Q1 sont symétriques.
Les variables correspondant à Q2 sont asymétriques.
Données des individus :
Individu Q2a Q2b Q2c
i 0 1 0
j 0 0 1
Variables Ordinales
Variables Ordinales
Variables Ordinales
Similarité de Gower
Similarité de Gower
Similarité de Gower
Exemple de Données
Individu Q1 Q2 Q3 Q4 Q5
i 1 2 0 1 0
j -1 1 0 0 1
Exemple de Données
Individu Q1 Q2 Q3 Q4 Q5
i 1 2 0 1 0
j -1 1 0 0 1
Poids attribués :
w1 = 3, w2 = w3 = w4 = w5 = 1,
Nous allons maintenant calculer la similarité de Gower entre i et j.
3 × 35 + 1 × 45 + 1 × 1 + 1 × 0 + 1 × 0 18
18
G(i, j) = = 5 = ≈ 0.514.
3+1+1+1+1 7 35
Similarité du Cosinus
Similarité du Cosinus
Similarité du Cosinus
Avantages :
Réduction de la complexité computationnelle.
Utilisation efficace de l’information : Les axes principaux capturent
une grande part de la variance.
Approche adaptée à différents types de données (numériques ou
catégorielles).
Avantages :
Réduction de la complexité computationnelle.
Utilisation efficace de l’information : Les axes principaux capturent
une grande part de la variance.
Approche adaptée à différents types de données (numériques ou
catégorielles).
Limites :
Perte d’information possible : Les groupes clairement séparés en
dimension p peuvent devenir moins distinguables en dimension
k < p.
Nécessite une analyse préliminaire pour choisir un k optimal (ex. :
critère d’inertie expliquée).
Avantages :
Réduction de la complexité computationnelle.
Utilisation efficace de l’information : Les axes principaux capturent
une grande part de la variance.
Approche adaptée à différents types de données (numériques ou
catégorielles).
Limites :
Perte d’information possible : Les groupes clairement séparés en
dimension p peuvent devenir moins distinguables en dimension
k < p.
Nécessite une analyse préliminaire pour choisir un k optimal (ex. :
critère d’inertie expliquée).
Applications :
Études exploratoires sur des données multidimensionnelles.
Préparation de données pour des analyses de regroupement
(clustering).
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 37 / 57
Overview of clustering methods
Contexte :
Applicable aux situations où les p variables sont numériques ou
ordinales (standardisées).
Objectif : Partitionner n observations en K groupes (K fixé au
préalable).
Contexte :
Applicable aux situations où les p variables sont numériques ou
ordinales (standardisées).
Objectif : Partitionner n observations en K groupes (K fixé au
préalable).
Principe :
Minimiser la variabilité intra-groupe W(C), définie comme la
somme des distances au carré des observations à leurs
centroïdes.
L’algorithme diminue W(C) à chaque itération.
Variantes et Remarques
Variantes et Remarques
Données initiales :
i 1 2 3 4 5
xi1 -1 -0.5 0 0.5 1
xi2 -1 0 0.5 -0.5 1
Paramètres :
Nombre de groupes fixé K = 2.
L’objectif est de minimiser la variabilité intra-groupe W(C).
Itération 1 : Assignation initiale
Groupe 1 : Observations 1, 2, 5.
Groupe 2 : Observations 3, 4.
Centroïdes :
1 −1 −0.5 1 −1/6
µ1 = + + =
3 −1 0 1 0
1 0 0.5 1/4
µ2 = + =
2 0.5 −0.5 0
Distances au carré :
i 1 2 3 4 5
d2 (i, µ1 ) 1.69 0.11 0.28 0.69 2.36
d2 (i, µ2 ) 2.56 0.56 0.31 0.31 1.57
Nouvelles assignations :
Groupe 1 : Observations 1, 2, 3.
Groupe 2 : Observations 4, 5.
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 42 / 57
Overview of clustering methods
Nouveaux centroïdes :
1 −1 −0.5 0 −1/2
µ1 = + + =
3 −1 0 0.5 −1/6
1 0.5 1 3/4
µ2 = + =
2 −0.5 1 1/4
Distances au carré :
i 1 2 3 4 5
d2 (i, µ1 ) 0.94 0.03 0.69 1.11 3.61
d2 (i, µ2 ) 4.63 1.63 0.63 0.63 0.63
Nouvelles assignations :
Groupe 1 : Observations 1, 2.
Groupe 2 : Observations 3, 4, 5.
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 43 / 57
Overview of clustering methods
Itération 3 : Convergence
Nouveaux centroïdes :
1 −1 −0.5 −3/4
µ1 = + =
2 −1 0 −1/2
1 0 0.5 1 1/2
µ2 = + + =
3 0.5 −0.5 1 1/3
Distances au carré :
i 1 2 3 4 5
d2 (i, µ1 ) 0.31 0.31 1.56 1.56 5.31
d2 (i, µ2 ) 4.03 1.11 0.28 0.69 0.69
Assignations finales :
Groupe 1 : Observations 1, 2.
Groupe 2 : Observations 3, 4, 5.
Conclusion : L’algorithme converge, aucune observation ne change
de groupe.
Pr. LALAOUI Ben Cherif Data Mining 2024/2025 44 / 57
Illustration graphique des itérations
Itération 1
Itération 2
Itération 3
Les groupes restent inchangés : {1, 2, 3} dans le groupe 1 (rouge), {4, 5} dans le
groupe 2 (bleu).
Calcul des nouveaux centroïdes :
−3/4 1/2
µ1 = , µ2 = .
−1/2 1/3
K-means : Compacité
K-means : Séparation
où µ est le centroïde global de tous les points et |Ck | est le nombre de points
dans le cluster Ck .
Indice Davies-Bouldin (DBI) :
1 K
Compacité(Ci ) + Compacité(Cj )
DBI = ∑ max
K i=1 i6=j kµi − µj k
Algorithmes descendants :
Départ : toutes les observations dans un seul groupe.
À chaque étape : division du groupe le moins homogène en deux
sous-groupes.
Fin : chaque observation devient son propre groupe.
Algorithmes ascendants :
Départ : chaque observation est un groupe séparé.
À chaque étape : fusion des deux groupes les plus similaires.
Fin : un seul groupe contenant toutes les observations.
Algorithmes descendants :
Très coûteux en temps de calcul.
Complexité : déterminer quel groupe scinder et comment le
découper.
Peu utilisés en pratique.
Algorithmes ascendants :
Simples et efficaces.
Méthode standard pour la classification hiérarchique.
Produit un dendrogramme montrant les fusions successives.