0% ont trouvé ce document utile (0 vote)

116 vues33 pages

Introduction au Machine Learning et Clustering

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

116 vues33 pages

Introduction au Machine Learning et Clustering

Transféré par

Nassima Aouari

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Apprentissage Automatique

Mme Mikram Mounia

Alaoui Belghti Khaoula
Chetouki Khaoula
Outline :
Supervised Learning Unsupervised Learning

01  What is Supervised Learning

 Regression

 Classification
02  What is Unsupervised learning

 Clustering

 Dimentionality Reduction

Model Selection and Evaluation Overfitting and Regularization

03  Hyper parameter optimization

 Cross Validation

 Bias Variance Tradeoff

 Overfitting and Underfitting
04  Definition and Causes of Overfitting

 Regularization techniques to reduce

Overfitting

Ensemble Methods Applications of ML

05  Definition and applications of ensemble

methods

 Bagging and boosting algorithms 06  Examples of real-world applications

 Challenges and considerations

Cluster Analysis : Définition
Cluster Analysis ou l’analyse du Partitionnement des Données est une
technique statistique multivariée qui permet de regrouper des
observations sur la base de certaines de leurs caractéristiques ou
variables qui les décrivent.
Classification Vs Clustering

regroupement des points de données

en fonction de leurs similitudes et de
leur différence avec les autres
Clustering : Exemple
Clustering : Exemple
Clustering : Exemple
Clustering : Exemple
Clustering : Exemple

Feature

 L'objectif est de maximiser la similarité des observations au sein

d'un cluster et de maximiser la dissimilarité entre les clusters.
Clustering : Exemples d’Applications

Segmentation des clients

Segmentation des images

Clustering : Distance Euclidienne
La méthode la plus intuitive pour mesurer la distance qui les sépare est de tracer
une ligne droite de l'une à l'autre. C'est ce qu'on appelle la distance d'Euclide.

Manhattan Distance
K-means Clustering : Processuce

Choisir le Spécifier le Assigner

Ajustez les
nombre de nombre de chaque point à
centroïdes
clusters centres un centroïde

Un centroïde de Répétez les

Nombre - K, départ (peut être Sur la base de la étapes 2. et 3.
choisi par la choisi au hasard, proximité Jusqu'à ce que
personne qui avec un algorithme (mesurée par la vous ne puissiez
effectue le ou en fonction d'une distance plus trouver une
clustering. connaissance euclidienne) meilleure solution
préalable). de clustering
Clustering : Centroid
K-means Clustering : 2

1. choisir le nombre de clusters

2. spécifier les graines des clusters
3. assigner chaque point à un
centroïde
4. ajuster les centroïdes
K-means Clustering : 3
Number of Clusters : Elbow Method
Dans la méthode du coude, la
somme des distances au carré
(SSD) entre les points de données
et les centres de clusters qui leur
sont attribués est calculée pour
différentes valeurs de k (le nombre
de clusters). La SSD est une
mesure de la distance entre chaque
point et le centre du cluster qui lui
a été attribuée.

 Ainsi, une plus petite valeur de SSD indique que les points de
données sont plus proches de leurs centres de cluster respectifs.
Nombre des Clusters: Elbow Method

SSD / WCSS (Within-

Cluster Sum of Square),
c'est la somme des
distances carrées entre
les points d'un cluster et
le centre du cluster.
Hierarchical clustering
Le clustering hiérarchique est un algorithme utilisé pour créer des clusters avec
une hiérarchie arborescente. Dans cette méthode de clustering, il n'est pas
nécessaire de donner le nombre de clusters à l'algorithme.
Hierarchical clustering : Types
Hierarchical clustering : Dendrogram
Hierarchical clustering : Agglomerative
Hierarchical clustering : Agglomerative
Calculer la matrice de distance
DEBUT représentant la distance entre
les points de données

Considérer chaque point de

données comme un seul cluster

fusionner deux clusters sur la

base de la similarité

Un seul
Mettre à jour la matrice de
cluster
distance
formé ?
FIN
Density-based clustering
Le clustering basé sur la densité fait référence aux méthodes d'apprentissage
automatique non supervisées qui identifient des clusters distincts dans les
données, en se basant sur l'idée qu'un cluster/groupe dans un espace de données
est une région contiguë de haute densité de points, séparée des autres clusters par
des régions éparses. Les points de données dans les régions séparées et
clairsemées sont généralement considérés comme du bruit ou des valeurs
aberrantes.
Density-based clustering : DBSCAN
DBSCAN est un algorithme de clustering basé sur la densité qui suppose que les clusters sont des
régions denses dans l'espace qui sont séparées par des régions ayant une densité plus faible de points
de données. Ici, les points de données "densément groupés" sont combinés en un seul cluster. Nous
pouvons identifier les clusters dans de grands ensembles de données en observant la densité locale
des points de données.
 Une caractéristique unique du clustering DBSCAN est qu'il est robuste aux valeurs aberrantes,
ce qui lui permet de trouver une application dans les systèmes de détection des anomalies.
Density-based clustering : DBSCAN
Density-based clustering : DBSCAN
Density-based clustering : DBSCAN

 Il ne nécessite pas le nombre de

clusters en entrée.
 Il peut détecter les valeurs
aberrantes lors de la recherche
de clusters.
 L'algorithme DBSCAN peut
détecter des clusters complexes
ou de forme et de taille
aléatoires.

 Le rayon du cercle orange et le nombre de points proches sont définis par l'utilisateur.
Density-based clustering : Epsilon
Epsilon est le rayon du cercle autour d'un point de
données tel que tous les autres points de données qui se
trouvent à l'intérieur du cercle sont considérés comme
des points voisins.
En d'autres termes, deux points sont considérés comme
voisins si la distance qui les sépare est <= à eps.

 Si la valeur eps est extrêmement petite, la plupart

des points ne se trouvent pas dans le voisinage et
seront traités comme des points aberrants.

 Si une valeur extrêmement élevée est choisie,

alors la majorité des points de données resteront
dans le même cluster.
Density-based clustering : MinPts

Dans DBSCAN, minPts est le nombre minimum de points de données qui

doivent être présents dans la région pour définir le cluster.
un bon point de référence est d'avoir minPts ≥ D + 1 où D est la dimension de
l'ensemble de données.

 Il est recommandé de garder la

valeur de minPts au moins 3,
mais pour les ensembles de
données plus grands, une
valeur de minPts plus grande
devrait être choisie, surtout s’il
y a beaucoup de valeurs
aberrantes.
Evaluation of clustering : RI / ARI
L'indice de Rand (RI, ARI) mesure la similarité entre les affectations des clusters en
effectuant des comparaisons par paires. Un score plus élevé signifie une plus grande
similarité.

Pour chaque paire, on considère qu'elle est correcte si elle est prédite dans le même
cluster alors qu'elle est dans le même cluster (un peu comme un « True Positive") et
correcte si elle est prédite dans des clusters différents alors qu'elle est effectivement dans
des clusters différents (un peu comme un « True Negative").
Evaluation of clustering : ARI

L'indice Rand ajusté (ARI) tient compte du hasard en déduisant un terme de

normalisation du hasard.
Le terme de normalisation du hasard prend en compte le nombre de paires se
trouvant dans le même cluster dans l'affectation réelle des clusters et l'affectation
prédite des clusters.
Evaluation of clustering : MI
L'information mutuelle (MI) mesure la concordance entre les affectations des
clusters. Un score plus élevé signifie une plus grande similarité.

Le degré d'accord entre les clusters est calculé par des probabilités conjointes et
marginales.
Evaluation of clustering : Coef Silouhette

Pour chaque point, son coefficient de silhouette est la différence

entre la distance moyenne avec les points du même groupe que lui
(cohésion) et la distance moyenne avec les points des autres
groupes voisins (séparation).
 Notez que pour le calcul de b, il considère le cluster le plus
proche de l'échantillon lui-même et non le cluster le plus
proche du cluster assignée.

Vous aimerez peut-être aussi

Présentation Cours CA
Pas encore d'évaluation
Présentation Cours CA
50 pages
Chap2 Clustering Final
Pas encore d'évaluation
Chap2 Clustering Final
50 pages
DM Ch3
Pas encore d'évaluation
DM Ch3
35 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
8 pages
Algorithmes KMEANS et SVM en ML
Pas encore d'évaluation
Algorithmes KMEANS et SVM en ML
59 pages
Méthodes de Clustering en ML
Pas encore d'évaluation
Méthodes de Clustering en ML
21 pages
DataMining Chapter 5 Clustering
Pas encore d'évaluation
DataMining Chapter 5 Clustering
63 pages
Algorithmes KMEANS et SVM en ML
Pas encore d'évaluation
Algorithmes KMEANS et SVM en ML
57 pages
TPInfo
Pas encore d'évaluation
TPInfo
7 pages
Clustering
100% (1)
Clustering
114 pages
Introduction au clustering DBSCAN en Python
Pas encore d'évaluation
Introduction au clustering DBSCAN en Python
13 pages
Cours DM 2 PDF
Pas encore d'évaluation
Cours DM 2 PDF
10 pages
Groupe4 - Règles D'association Métriques D'évaluation Et APriori
Pas encore d'évaluation
Groupe4 - Règles D'association Métriques D'évaluation Et APriori
28 pages
Image Mining Clustering
Pas encore d'évaluation
Image Mining Clustering
33 pages
3 Cours DBSCAN
Pas encore d'évaluation
3 Cours DBSCAN
22 pages
Introduction au Clustering et Méthodes
Pas encore d'évaluation
Introduction au Clustering et Méthodes
11 pages
Clustering : Guide Essentiel et Applications
Pas encore d'évaluation
Clustering : Guide Essentiel et Applications
10 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
26 pages
Clustering et Algorithmes de Classification
Pas encore d'évaluation
Clustering et Algorithmes de Classification
74 pages
Clustering VF
Pas encore d'évaluation
Clustering VF
70 pages
Clustering et Algorithmes DBSCAN
Pas encore d'évaluation
Clustering et Algorithmes DBSCAN
36 pages
Clustering 1
Pas encore d'évaluation
Clustering 1
8 pages
CA-Chapitre 3
Pas encore d'évaluation
CA-Chapitre 3
29 pages
Classification Tege2
Pas encore d'évaluation
Classification Tege2
19 pages
Algorithmes K-Means et DBSCAN
100% (2)
Algorithmes K-Means et DBSCAN
31 pages
Oualid Idriss Soufian
Pas encore d'évaluation
Oualid Idriss Soufian
19 pages
Techniques de Clustering et Algorithmes
Pas encore d'évaluation
Techniques de Clustering et Algorithmes
47 pages
Algorithme K-MEANS en Clustering
100% (1)
Algorithme K-MEANS en Clustering
37 pages
Apprentissage Non Supervisé
Pas encore d'évaluation
Apprentissage Non Supervisé
101 pages
Introduction au Clustering en Data Mining
Pas encore d'évaluation
Introduction au Clustering en Data Mining
7 pages
Clustering
Pas encore d'évaluation
Clustering
37 pages
"K-Means : Guide pour Data Scientists"
100% (1)
"K-Means : Guide pour Data Scientists"
10 pages
Chapter 3 Clustering
Pas encore d'évaluation
Chapter 3 Clustering
7 pages
MID RDF 06
Pas encore d'évaluation
MID RDF 06
107 pages
Chapitre 6 Clustering Hi-Rarchique
Pas encore d'évaluation
Chapitre 6 Clustering Hi-Rarchique
62 pages
Cours 4 Clustering
Pas encore d'évaluation
Cours 4 Clustering
40 pages
Dans de Grandes Bases de Données Spatiales Avec Bruit
Pas encore d'évaluation
Dans de Grandes Bases de Données Spatiales Avec Bruit
6 pages
4 Clustering
Pas encore d'évaluation
4 Clustering
35 pages
Kmeans
100% (2)
Kmeans
23 pages
Chapitre5 Clustring
Pas encore d'évaluation
Chapitre5 Clustring
59 pages
AI Chap2
Pas encore d'évaluation
AI Chap2
30 pages
TP - 5 - Énoncé - Version 1
Pas encore d'évaluation
TP - 5 - Énoncé - Version 1
4 pages
Chapitre 7. Le Clustering
Pas encore d'évaluation
Chapitre 7. Le Clustering
14 pages
Cours Datamining P2
Pas encore d'évaluation
Cours Datamining P2
26 pages
Uber
Pas encore d'évaluation
Uber
22 pages
Techniques de Clustering
100% (2)
Techniques de Clustering
50 pages
Classification Non Supervisée en IA
Pas encore d'évaluation
Classification Non Supervisée en IA
32 pages
Cours Segmentation
Pas encore d'évaluation
Cours Segmentation
43 pages
Techniques de Clustering Avancées
Pas encore d'évaluation
Techniques de Clustering Avancées
6 pages
Introduction au Clustering
Pas encore d'évaluation
Introduction au Clustering
6 pages
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
Pas encore d'évaluation
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
59 pages
Classification KNN en Science des Données
Pas encore d'évaluation
Classification KNN en Science des Données
19 pages
Classification Non Hierarchique
Pas encore d'évaluation
Classification Non Hierarchique
14 pages
Méthodes de Clustering et Distances
Pas encore d'évaluation
Méthodes de Clustering et Distances
64 pages
ch3 ML - 221126 - 094552
Pas encore d'évaluation
ch3 ML - 221126 - 094552
41 pages
Classification de données et clustering
Pas encore d'évaluation
Classification de données et clustering
58 pages
Quelles Formules de Politesse Utiliser Dans Un Mail
Pas encore d'évaluation
Quelles Formules de Politesse Utiliser Dans Un Mail
8 pages
Routes
Pas encore d'évaluation
Routes
7 pages
Techniques de Mouvements Mécaniques
Pas encore d'évaluation
Techniques de Mouvements Mécaniques
6 pages
Wa0089.
Pas encore d'évaluation
Wa0089.
6 pages
CB Clustalw
Pas encore d'évaluation
CB Clustalw
24 pages
Évaluation des performances chez Coca Cola
Pas encore d'évaluation
Évaluation des performances chez Coca Cola
1 page
Espaces Vectoriels et Opérateurs Linéaires
100% (1)
Espaces Vectoriels et Opérateurs Linéaires
47 pages
La Motivation Finale
Pas encore d'évaluation
La Motivation Finale
61 pages
Guide de lecture pour 3e année
Pas encore d'évaluation
Guide de lecture pour 3e année
66 pages
Séries Numériques et Applications
Pas encore d'évaluation
Séries Numériques et Applications
6 pages
Hydrologie Piste
Pas encore d'évaluation
Hydrologie Piste
2 pages
COURS Entrepreneuriat, Leadership, Développement Personnel 2023
Pas encore d'évaluation
COURS Entrepreneuriat, Leadership, Développement Personnel 2023
95 pages
Compte Rendu de L'Assemblée Générale
Pas encore d'évaluation
Compte Rendu de L'Assemblée Générale
4 pages
Exercices sur Variables Aléatoires et Probabilités
Pas encore d'évaluation
Exercices sur Variables Aléatoires et Probabilités
2 pages
2024 2025 Planning 3
Pas encore d'évaluation
2024 2025 Planning 3
5 pages
Chapitre 04. Les Approches Sociologiques Des Organisations
Pas encore d'évaluation
Chapitre 04. Les Approches Sociologiques Des Organisations
10 pages
Lhomme 40029
Pas encore d'évaluation
Lhomme 40029
28 pages
TDChamps 3
Pas encore d'évaluation
TDChamps 3
4 pages
Mini Projet Béton Précontraint V3
100% (1)
Mini Projet Béton Précontraint V3
8 pages
OFFRE TECHNIQUE ET FINANCIERE - Evlauation Des Déchets À Yakro
Pas encore d'évaluation
OFFRE TECHNIQUE ET FINANCIERE - Evlauation Des Déchets À Yakro
19 pages
CONTOLE DE GESTION (Introduction Au Controle de Gestion)
Pas encore d'évaluation
CONTOLE DE GESTION (Introduction Au Controle de Gestion)
37 pages
MCV3 CHAP 1 Introduction Au Control de Gestion
Pas encore d'évaluation
MCV3 CHAP 1 Introduction Au Control de Gestion
14 pages
Schémas Volumes Finis pour EDP Elliptique
Pas encore d'évaluation
Schémas Volumes Finis pour EDP Elliptique
22 pages
Note Conceptuelle Création de Coopérative
Pas encore d'évaluation
Note Conceptuelle Création de Coopérative
5 pages
2024 TDMicroéconomie 2 Chap 1
Pas encore d'évaluation
2024 TDMicroéconomie 2 Chap 1
3 pages
Chapitre 5-Statistique
Pas encore d'évaluation
Chapitre 5-Statistique
8 pages
Examen Reprise AMENAGEMENT AIRE PROTEGEES UPH 2025
Pas encore d'évaluation
Examen Reprise AMENAGEMENT AIRE PROTEGEES UPH 2025
2 pages
Évaluation Biologie Terminale A4
Pas encore d'évaluation
Évaluation Biologie Terminale A4
2 pages
OperatingInstructions FR 1PQ8 FR-FR
Pas encore d'évaluation
OperatingInstructions FR 1PQ8 FR-FR
170 pages
Topographie pour Étudiants L3 BTP
Pas encore d'évaluation
Topographie pour Étudiants L3 BTP
7 pages