Apprentissage Automatique
Mme Mikram Mounia
Alaoui Belghti Khaoula
Chetouki Khaoula
Outline :
Supervised Learning Unsupervised Learning
01 What is Supervised Learning
Regression
Classification
02 What is Unsupervised learning
Clustering
Dimentionality Reduction
Model Selection and Evaluation Overfitting and Regularization
03 Hyper parameter optimization
Cross Validation
Bias Variance Tradeoff
Overfitting and Underfitting
04 Definition and Causes of Overfitting
Regularization techniques to reduce
Overfitting
Ensemble Methods Applications of ML
05 Definition and applications of ensemble
methods
Bagging and boosting algorithms 06 Examples of real-world applications
Challenges and considerations
Cluster Analysis : Définition
Cluster Analysis ou l’analyse du Partitionnement des Données est une
technique statistique multivariée qui permet de regrouper des
observations sur la base de certaines de leurs caractéristiques ou
variables qui les décrivent.
Classification Vs Clustering
regroupement des points de données
en fonction de leurs similitudes et de
leur différence avec les autres
Clustering : Exemple
Clustering : Exemple
Clustering : Exemple
Clustering : Exemple
Clustering : Exemple
Feature
L'objectif est de maximiser la similarité des observations au sein
d'un cluster et de maximiser la dissimilarité entre les clusters.
Clustering : Exemples d’Applications
Segmentation des clients
Segmentation des images
Clustering : Distance Euclidienne
La méthode la plus intuitive pour mesurer la distance qui les sépare est de tracer
une ligne droite de l'une à l'autre. C'est ce qu'on appelle la distance d'Euclide.
Manhattan Distance
K-means Clustering : Processuce
Choisir le Spécifier le Assigner
Ajustez les
nombre de nombre de chaque point à
centroïdes
clusters centres un centroïde
Un centroïde de Répétez les
Nombre - K, départ (peut être Sur la base de la étapes 2. et 3.
choisi par la choisi au hasard, proximité Jusqu'à ce que
personne qui avec un algorithme (mesurée par la vous ne puissiez
effectue le ou en fonction d'une distance plus trouver une
clustering. connaissance euclidienne) meilleure solution
préalable). de clustering
Clustering : Centroid
K-means Clustering : 2
1. choisir le nombre de clusters
2. spécifier les graines des clusters
3. assigner chaque point à un
centroïde
4. ajuster les centroïdes
K-means Clustering : 3
Number of Clusters : Elbow Method
Dans la méthode du coude, la
somme des distances au carré
(SSD) entre les points de données
et les centres de clusters qui leur
sont attribués est calculée pour
différentes valeurs de k (le nombre
de clusters). La SSD est une
mesure de la distance entre chaque
point et le centre du cluster qui lui
a été attribuée.
Ainsi, une plus petite valeur de SSD indique que les points de
données sont plus proches de leurs centres de cluster respectifs.
Nombre des Clusters: Elbow Method
SSD / WCSS (Within-
Cluster Sum of Square),
c'est la somme des
distances carrées entre
les points d'un cluster et
le centre du cluster.
Hierarchical clustering
Le clustering hiérarchique est un algorithme utilisé pour créer des clusters avec
une hiérarchie arborescente. Dans cette méthode de clustering, il n'est pas
nécessaire de donner le nombre de clusters à l'algorithme.
Hierarchical clustering : Types
Hierarchical clustering : Dendrogram
Hierarchical clustering : Agglomerative
Hierarchical clustering : Agglomerative
Calculer la matrice de distance
DEBUT représentant la distance entre
les points de données
Considérer chaque point de
données comme un seul cluster
fusionner deux clusters sur la
base de la similarité
Un seul
Mettre à jour la matrice de
cluster
distance
formé ?
FIN
Density-based clustering
Le clustering basé sur la densité fait référence aux méthodes d'apprentissage
automatique non supervisées qui identifient des clusters distincts dans les
données, en se basant sur l'idée qu'un cluster/groupe dans un espace de données
est une région contiguë de haute densité de points, séparée des autres clusters par
des régions éparses. Les points de données dans les régions séparées et
clairsemées sont généralement considérés comme du bruit ou des valeurs
aberrantes.
Density-based clustering : DBSCAN
DBSCAN est un algorithme de clustering basé sur la densité qui suppose que les clusters sont des
régions denses dans l'espace qui sont séparées par des régions ayant une densité plus faible de points
de données. Ici, les points de données "densément groupés" sont combinés en un seul cluster. Nous
pouvons identifier les clusters dans de grands ensembles de données en observant la densité locale
des points de données.
Une caractéristique unique du clustering DBSCAN est qu'il est robuste aux valeurs aberrantes,
ce qui lui permet de trouver une application dans les systèmes de détection des anomalies.
Density-based clustering : DBSCAN
Density-based clustering : DBSCAN
Density-based clustering : DBSCAN
Il ne nécessite pas le nombre de
clusters en entrée.
Il peut détecter les valeurs
aberrantes lors de la recherche
de clusters.
L'algorithme DBSCAN peut
détecter des clusters complexes
ou de forme et de taille
aléatoires.
Le rayon du cercle orange et le nombre de points proches sont définis par l'utilisateur.
Density-based clustering : Epsilon
Epsilon est le rayon du cercle autour d'un point de
données tel que tous les autres points de données qui se
trouvent à l'intérieur du cercle sont considérés comme
des points voisins.
En d'autres termes, deux points sont considérés comme
voisins si la distance qui les sépare est <= à eps.
Si la valeur eps est extrêmement petite, la plupart
des points ne se trouvent pas dans le voisinage et
seront traités comme des points aberrants.
Si une valeur extrêmement élevée est choisie,
alors la majorité des points de données resteront
dans le même cluster.
Density-based clustering : MinPts
Dans DBSCAN, minPts est le nombre minimum de points de données qui
doivent être présents dans la région pour définir le cluster.
un bon point de référence est d'avoir minPts ≥ D + 1 où D est la dimension de
l'ensemble de données.
Il est recommandé de garder la
valeur de minPts au moins 3,
mais pour les ensembles de
données plus grands, une
valeur de minPts plus grande
devrait être choisie, surtout s’il
y a beaucoup de valeurs
aberrantes.
Evaluation of clustering : RI / ARI
L'indice de Rand (RI, ARI) mesure la similarité entre les affectations des clusters en
effectuant des comparaisons par paires. Un score plus élevé signifie une plus grande
similarité.
Pour chaque paire, on considère qu'elle est correcte si elle est prédite dans le même
cluster alors qu'elle est dans le même cluster (un peu comme un « True Positive") et
correcte si elle est prédite dans des clusters différents alors qu'elle est effectivement dans
des clusters différents (un peu comme un « True Negative").
Evaluation of clustering : ARI
L'indice Rand ajusté (ARI) tient compte du hasard en déduisant un terme de
normalisation du hasard.
Le terme de normalisation du hasard prend en compte le nombre de paires se
trouvant dans le même cluster dans l'affectation réelle des clusters et l'affectation
prédite des clusters.
Evaluation of clustering : MI
L'information mutuelle (MI) mesure la concordance entre les affectations des
clusters. Un score plus élevé signifie une plus grande similarité.
Le degré d'accord entre les clusters est calculé par des probabilités conjointes et
marginales.
Evaluation of clustering : Coef Silouhette
Pour chaque point, son coefficient de silhouette est la différence
entre la distance moyenne avec les points du même groupe que lui
(cohésion) et la distance moyenne avec les points des autres
groupes voisins (séparation).
Notez que pour le calcul de b, il considère le cluster le plus
proche de l'échantillon lui-même et non le cluster le plus
proche du cluster assignée.