0% ont trouvé ce document utile (0 vote)
116 vues33 pages

Introduction au Machine Learning et Clustering

Transféré par

Nassima Aouari
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
116 vues33 pages

Introduction au Machine Learning et Clustering

Transféré par

Nassima Aouari
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apprentissage Automatique

Mme Mikram Mounia


Alaoui Belghti Khaoula
Chetouki Khaoula
Outline :
Supervised Learning Unsupervised Learning

01  What is Supervised Learning

 Regression

 Classification
02  What is Unsupervised learning

 Clustering

 Dimentionality Reduction

Model Selection and Evaluation Overfitting and Regularization

03  Hyper parameter optimization

 Cross Validation

 Bias Variance Tradeoff


 Overfitting and Underfitting
04  Definition and Causes of Overfitting

 Regularization techniques to reduce


Overfitting

Ensemble Methods Applications of ML

05  Definition and applications of ensemble


methods

 Bagging and boosting algorithms 06  Examples of real-world applications

 Challenges and considerations


Cluster Analysis : Définition
Cluster Analysis ou l’analyse du Partitionnement des Données est une
technique statistique multivariée qui permet de regrouper des
observations sur la base de certaines de leurs caractéristiques ou
variables qui les décrivent.
Classification Vs Clustering

regroupement des points de données


en fonction de leurs similitudes et de
leur différence avec les autres
Clustering : Exemple
Clustering : Exemple
Clustering : Exemple
Clustering : Exemple
Clustering : Exemple

Feature

 L'objectif est de maximiser la similarité des observations au sein


d'un cluster et de maximiser la dissimilarité entre les clusters.
Clustering : Exemples d’Applications

Segmentation des clients

Segmentation des images


Clustering : Distance Euclidienne
La méthode la plus intuitive pour mesurer la distance qui les sépare est de tracer
une ligne droite de l'une à l'autre. C'est ce qu'on appelle la distance d'Euclide.

Manhattan Distance
K-means Clustering : Processuce

Choisir le Spécifier le Assigner


Ajustez les
nombre de nombre de chaque point à
centroïdes
clusters centres un centroïde

Un centroïde de Répétez les


Nombre - K, départ (peut être Sur la base de la étapes 2. et 3.
choisi par la choisi au hasard, proximité Jusqu'à ce que
personne qui avec un algorithme (mesurée par la vous ne puissiez
effectue le ou en fonction d'une distance plus trouver une
clustering. connaissance euclidienne) meilleure solution
préalable). de clustering
Clustering : Centroid
K-means Clustering : 2

1. choisir le nombre de clusters


2. spécifier les graines des clusters
3. assigner chaque point à un
centroïde
4. ajuster les centroïdes
K-means Clustering : 3
Number of Clusters : Elbow Method
Dans la méthode du coude, la
somme des distances au carré
(SSD) entre les points de données
et les centres de clusters qui leur
sont attribués est calculée pour
différentes valeurs de k (le nombre
de clusters). La SSD est une
mesure de la distance entre chaque
point et le centre du cluster qui lui
a été attribuée.

 Ainsi, une plus petite valeur de SSD indique que les points de
données sont plus proches de leurs centres de cluster respectifs.
Nombre des Clusters: Elbow Method

SSD / WCSS (Within-


Cluster Sum of Square),
c'est la somme des
distances carrées entre
les points d'un cluster et
le centre du cluster.
Hierarchical clustering
Le clustering hiérarchique est un algorithme utilisé pour créer des clusters avec
une hiérarchie arborescente. Dans cette méthode de clustering, il n'est pas
nécessaire de donner le nombre de clusters à l'algorithme.
Hierarchical clustering : Types
Hierarchical clustering : Dendrogram
Hierarchical clustering : Agglomerative
Hierarchical clustering : Agglomerative
Calculer la matrice de distance
DEBUT représentant la distance entre
les points de données

Considérer chaque point de


données comme un seul cluster

fusionner deux clusters sur la


base de la similarité

Un seul
Mettre à jour la matrice de
cluster
distance
formé ?
FIN
Density-based clustering
Le clustering basé sur la densité fait référence aux méthodes d'apprentissage
automatique non supervisées qui identifient des clusters distincts dans les
données, en se basant sur l'idée qu'un cluster/groupe dans un espace de données
est une région contiguë de haute densité de points, séparée des autres clusters par
des régions éparses. Les points de données dans les régions séparées et
clairsemées sont généralement considérés comme du bruit ou des valeurs
aberrantes.
Density-based clustering : DBSCAN
DBSCAN est un algorithme de clustering basé sur la densité qui suppose que les clusters sont des
régions denses dans l'espace qui sont séparées par des régions ayant une densité plus faible de points
de données. Ici, les points de données "densément groupés" sont combinés en un seul cluster. Nous
pouvons identifier les clusters dans de grands ensembles de données en observant la densité locale
des points de données.
 Une caractéristique unique du clustering DBSCAN est qu'il est robuste aux valeurs aberrantes,
ce qui lui permet de trouver une application dans les systèmes de détection des anomalies.
Density-based clustering : DBSCAN
Density-based clustering : DBSCAN
Density-based clustering : DBSCAN

 Il ne nécessite pas le nombre de


clusters en entrée.
 Il peut détecter les valeurs
aberrantes lors de la recherche
de clusters.
 L'algorithme DBSCAN peut
détecter des clusters complexes
ou de forme et de taille
aléatoires.

 Le rayon du cercle orange et le nombre de points proches sont définis par l'utilisateur.
Density-based clustering : Epsilon
Epsilon est le rayon du cercle autour d'un point de
données tel que tous les autres points de données qui se
trouvent à l'intérieur du cercle sont considérés comme
des points voisins.
En d'autres termes, deux points sont considérés comme
voisins si la distance qui les sépare est <= à eps.

 Si la valeur eps est extrêmement petite, la plupart


des points ne se trouvent pas dans le voisinage et
seront traités comme des points aberrants.

 Si une valeur extrêmement élevée est choisie,


alors la majorité des points de données resteront
dans le même cluster.
Density-based clustering : MinPts

Dans DBSCAN, minPts est le nombre minimum de points de données qui


doivent être présents dans la région pour définir le cluster.
un bon point de référence est d'avoir minPts ≥ D + 1 où D est la dimension de
l'ensemble de données.

 Il est recommandé de garder la


valeur de minPts au moins 3,
mais pour les ensembles de
données plus grands, une
valeur de minPts plus grande
devrait être choisie, surtout s’il
y a beaucoup de valeurs
aberrantes.
Evaluation of clustering : RI / ARI
L'indice de Rand (RI, ARI) mesure la similarité entre les affectations des clusters en
effectuant des comparaisons par paires. Un score plus élevé signifie une plus grande
similarité.

Pour chaque paire, on considère qu'elle est correcte si elle est prédite dans le même
cluster alors qu'elle est dans le même cluster (un peu comme un « True Positive") et
correcte si elle est prédite dans des clusters différents alors qu'elle est effectivement dans
des clusters différents (un peu comme un « True Negative").
Evaluation of clustering : ARI

L'indice Rand ajusté (ARI) tient compte du hasard en déduisant un terme de


normalisation du hasard.
Le terme de normalisation du hasard prend en compte le nombre de paires se
trouvant dans le même cluster dans l'affectation réelle des clusters et l'affectation
prédite des clusters.
Evaluation of clustering : MI
L'information mutuelle (MI) mesure la concordance entre les affectations des
clusters. Un score plus élevé signifie une plus grande similarité.

Le degré d'accord entre les clusters est calculé par des probabilités conjointes et
marginales.
Evaluation of clustering : Coef Silouhette

Pour chaque point, son coefficient de silhouette est la différence


entre la distance moyenne avec les points du même groupe que lui
(cohésion) et la distance moyenne avec les points des autres
groupes voisins (séparation).
 Notez que pour le calcul de b, il considère le cluster le plus
proche de l'échantillon lui-même et non le cluster le plus
proche du cluster assignée.

Vous aimerez peut-être aussi