0% ont trouvé ce document utile (0 vote)

33 vues3 pages

Techniques de Clustering K-Means

Le document décrit la technique d'indexation K-Means clustering. Il explique les étapes de l'algorithme K-Means pour regrouper des données en clusters, ainsi qu'un exemple jouet utilisant K-Means clustering sur un corpus de phrases pour créer deux et trois clusters.

Transféré par

Ali Gharsallah

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

33 vues3 pages

Techniques de Clustering K-Means

Transféré par

Ali Gharsallah

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Techniques d’indexation

TP N3
PROF: Ben Aicha Chaima, Zeiri Aya
[email protected]
[email protected]

Les principes
Le clustering K-Means est un algorithme populaire de regroupement non supervisé utilisé pour
trouver des structures similaires dans un ensemble de données.

L'objectif du clustering K-Means est de regrouper les données en K clusters, où K est un

paramètre fixé à l'avance.

Le fonctionnement de K-Means se déroule en plusieurs étapes :

1. Initialisation : Sélectionner aléatoirement K points comme centres de cluster initiaux.

2. Attribution : Assigner chaque point de données au centre de cluster le plus proche.

3. Mise à jour : Mettre à jour les centres de cluster en calculant la moyenne des points
attribués à chaque cluster.

4. Répéter les étapes 2 et 3 jusqu'à convergence.

K-Means regroupe les données en minimisant la distance entre les points de données et les
centres de cluster.

• La distance utilisée est généralement la distance euclidienne.

• Les points de données qui sont proches les uns des autres sont regroupés dans le même
cluster.

• Discuter des avantages et des limitations du clustering K-Means

Exercice :
1. Considérons le corpus suivant de phrases :

textes = [

1
"Penny a acheté de jolis poissons bleus.",

"Penny a acheté un poisson bleu et orange.",

"Le chat a mangé un poisson au magasin.",

"Penny est allée au magasin. Penny a mangé un insecte. Penny a vu un poisson.",

"Il miaulait une fois sur l'insecte, il miaule toujours sur l'insecte et le poisson.",

"Le chat est au magasin de poissons. Le chat est orange. Le chat miaule sur le
poisson.",

"Penny est un poisson"

Utiliser le TfidfVectorizer pour calculer les valeurs TF-IDF (Term Frequency-Inverse

Document Frequency).

2. Pour cette partie de l'exercice, utilisez l'algorithme KMeans pour effectuer le

clustering des documents. Créer deux clusters :
Indice :
o sklearn.cluster : est un module de la bibliothèque Scikit-learn (sklearn) qui fournit
des algorithmes de clustering pour regrouper des données non étiquetées.
L'algorithme KMeans est l'un de ces algorithmes, et il est largement utilisé pour
regrouper des données en clusters dans divers domaines tels que l'analyse de
données, l'apprentissage automatique et le traitement de texte.
o KMeans : Cette classe de Scikit-learn implémente l'algorithme de clustering KMeans.

a. Une fois que vous avez initialisé l'objet KMeans avec le nombre approprié de clusters,
utilisez la méthode fit pour entraîner l'algorithme sur la matrice TF-IDF.
Indice :
o fit() est utilisée pour entraîner le modèle sur les données d'entraînement.

b. Affichage des termes principaux de chaque cluster.

3. Pour cette partie de l'exercice, utilisez l'algorithme KMeans pour effectuer le

clustering des documents. Créer trois clusters :

2
a. Une fois que vous avez initialisé l'objet KMeans avec le nombre approprié de clusters,
utilisez la méthode fit pour entraîner l'algorithme sur la matrice TF-IDF.

b. Affichage des termes principaux de chaque cluster.

c. Stocker les résultats du clustering dans un DataFrame pour une analyse ultérieure.

Vous aimerez peut-être aussi

TP 2: Les Méthodes de Structuration Et de Classification en Apprentissage Non Supervisé
Pas encore d'évaluation
TP 2: Les Méthodes de Structuration Et de Classification en Apprentissage Non Supervisé
4 pages
Kmeans
Pas encore d'évaluation
Kmeans
3 pages
Compte-Rendu TP
100% (1)
Compte-Rendu TP
2 pages
TP2 IA L2 RobertYave ApprentissageNonSup
Pas encore d'évaluation
TP2 IA L2 RobertYave ApprentissageNonSup
23 pages
Algorithmes de Clustering Non Supervisé
Pas encore d'évaluation
Algorithmes de Clustering Non Supervisé
10 pages
Apprentissage Non Supervisé avec K-Means
Pas encore d'évaluation
Apprentissage Non Supervisé avec K-Means
4 pages
Compte Rendu TP1 AI M1ESE
Pas encore d'évaluation
Compte Rendu TP1 AI M1ESE
4 pages
TP3 IngSI
100% (1)
TP3 IngSI
5 pages
Classification Tege2
Pas encore d'évaluation
Classification Tege2
19 pages
Algorithmes K-Means et DBSCAN
100% (2)
Algorithmes K-Means et DBSCAN
31 pages
Clustering TP
Pas encore d'évaluation
Clustering TP
10 pages
Introduction au Clustering K-means
Pas encore d'évaluation
Introduction au Clustering K-means
25 pages
TD N°1 Apprentissage M1-IA 2022-2023 CORR
Pas encore d'évaluation
TD N°1 Apprentissage M1-IA 2022-2023 CORR
7 pages
Clustering
Pas encore d'évaluation
Clustering
32 pages
K-Means : Apprentissage Non Supervisé en IA
Pas encore d'évaluation
K-Means : Apprentissage Non Supervisé en IA
5 pages
Recherche Sur Les Algorithmes de Machine Learning
Pas encore d'évaluation
Recherche Sur Les Algorithmes de Machine Learning
5 pages
Non Supervisé Clustring
Pas encore d'évaluation
Non Supervisé Clustring
10 pages
Modèle
Pas encore d'évaluation
Modèle
3 pages
"K-Means : Guide pour Data Scientists"
100% (1)
"K-Means : Guide pour Data Scientists"
10 pages
Kmeans
Pas encore d'évaluation
Kmeans
40 pages
KMeans Notion de Distance Et Initialisation
Pas encore d'évaluation
KMeans Notion de Distance Et Initialisation
7 pages
Cours IA 1 - Apprentissage 2
Pas encore d'évaluation
Cours IA 1 - Apprentissage 2
5 pages
K Means
Pas encore d'évaluation
K Means
34 pages
Approche de Classification À Base de K-Moyennes - V2-4
Pas encore d'évaluation
Approche de Classification À Base de K-Moyennes - V2-4
15 pages
DM TP2
Pas encore d'évaluation
DM TP2
4 pages
La Segmentation: Clustering
Pas encore d'évaluation
La Segmentation: Clustering
54 pages
DataMining Chapter 5 Clustering
Pas encore d'évaluation
DataMining Chapter 5 Clustering
63 pages
Algorithme K-means en Clustering Non Supervisé
Pas encore d'évaluation
Algorithme K-means en Clustering Non Supervisé
1 page
Image Mining Clustering
Pas encore d'évaluation
Image Mining Clustering
33 pages
Optimisation K-Means : Codage et Tests
Pas encore d'évaluation
Optimisation K-Means : Codage et Tests
2 pages
Implémentation de K-Means 2
Pas encore d'évaluation
Implémentation de K-Means 2
4 pages
Introduction au Clustering et K-Means
Pas encore d'évaluation
Introduction au Clustering et K-Means
61 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
8 pages
Module06 Machine Learning 2 Seminar Sujet
Pas encore d'évaluation
Module06 Machine Learning 2 Seminar Sujet
13 pages
Kmeans
100% (2)
Kmeans
23 pages
TP5 SDN Clustering
Pas encore d'évaluation
TP5 SDN Clustering
1 page
Introduction au Clustering en Machine Learning
Pas encore d'évaluation
Introduction au Clustering en Machine Learning
29 pages
Kmeans Clustering - Jupyter Notebook
Pas encore d'évaluation
Kmeans Clustering - Jupyter Notebook
11 pages
ML 1
Pas encore d'évaluation
ML 1
41 pages
Clustering K-MEANS : Guide Complet
Pas encore d'évaluation
Clustering K-MEANS : Guide Complet
37 pages
K-Means pour Étudiants en Data Mining
Pas encore d'évaluation
K-Means pour Étudiants en Data Mining
2 pages
TP 5: Algorithme Des K Plus Proches Voisins: Préparation Des Données: Distance
Pas encore d'évaluation
TP 5: Algorithme Des K Plus Proches Voisins: Préparation Des Données: Distance
3 pages
Algorithme K-MEANS en Clustering
100% (1)
Algorithme K-MEANS en Clustering
37 pages
TP Clustering
Pas encore d'évaluation
TP Clustering
6 pages
TP #6 - Clustering
Pas encore d'évaluation
TP #6 - Clustering
8 pages
Classification Non Supervisée : K-Means
Pas encore d'évaluation
Classification Non Supervisée : K-Means
13 pages
Cours Appr Non Superv Kmeans
Pas encore d'évaluation
Cours Appr Non Superv Kmeans
14 pages
Algorithme K-Means : Formation de Clusters
Pas encore d'évaluation
Algorithme K-Means : Formation de Clusters
15 pages
TP4 ML
Pas encore d'évaluation
TP4 ML
3 pages
Supplementaire Cluseing
Pas encore d'évaluation
Supplementaire Cluseing
7 pages
TP2KNN
Pas encore d'évaluation
TP2KNN
7 pages
IA Exercices Applications (Corrigés)
Pas encore d'évaluation
IA Exercices Applications (Corrigés)
6 pages
Code K
Pas encore d'évaluation
Code K
2 pages
Classification Non Hierarchique
Pas encore d'évaluation
Classification Non Hierarchique
14 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
AI Chap2
Pas encore d'évaluation
AI Chap2
30 pages
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
Pas encore d'évaluation
DATA MINING - Chap2. SEGMENTATION (K-Means, CAH)
59 pages
4 Clustering
Pas encore d'évaluation
4 Clustering
35 pages
Neauivau Rapport
Pas encore d'évaluation
Neauivau Rapport
14 pages
Nouveau Microsoft Word Document
Pas encore d'évaluation
Nouveau Microsoft Word Document
1 page
Chapitre 4
Pas encore d'évaluation
Chapitre 4
3 pages
TP 4 de THL
Pas encore d'évaluation
TP 4 de THL
2 pages
Chapitre 3 Partie 1 Technonologies Multimédias
Pas encore d'évaluation
Chapitre 3 Partie 1 Technonologies Multimédias
24 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
37 pages
Cours de Logique Formelle LSI1 22-23
Pas encore d'évaluation
Cours de Logique Formelle LSI1 22-23
34 pages
Chapitre 1
Pas encore d'évaluation
Chapitre 1
22 pages
Bordas 1 Vers 21
Pas encore d'évaluation
Bordas 1 Vers 21
4 pages
500 DSA Questions
Pas encore d'évaluation
500 DSA Questions
56 pages
Cours de Programmation Par Contraintes Partie 2 (2022-2023)
Pas encore d'évaluation
Cours de Programmation Par Contraintes Partie 2 (2022-2023)
49 pages
Jacobi Gauss Seidel Exercice
Pas encore d'évaluation
Jacobi Gauss Seidel Exercice
2 pages
Erreurs et quantification des signaux
Pas encore d'évaluation
Erreurs et quantification des signaux
7 pages
Methode Du Simplexe
Pas encore d'évaluation
Methode Du Simplexe
68 pages
Série 2
Pas encore d'évaluation
Série 2
2 pages
TD Inf Theory Corrigé
Pas encore d'évaluation
TD Inf Theory Corrigé
20 pages
Operations Primitives
Pas encore d'évaluation
Operations Primitives
16 pages
Serie3 TD RO Simplexe
Pas encore d'évaluation
Serie3 TD RO Simplexe
5 pages
Epreuve Traitement Du Signal 2
Pas encore d'évaluation
Epreuve Traitement Du Signal 2
2 pages
Algobox Tri Insertion Iteratif
Pas encore d'évaluation
Algobox Tri Insertion Iteratif
2 pages
Exercice I:: Traitement Numérique Du Signal & DSP
Pas encore d'évaluation
Exercice I:: Traitement Numérique Du Signal & DSP
3 pages
Complexité Algorithmique
Pas encore d'évaluation
Complexité Algorithmique
42 pages
Traitement Avance Du Signal: Débruitage D'un Signal Par La Transformée en Ondelette Discrète (DWT) Avec Matlab
Pas encore d'évaluation
Traitement Avance Du Signal: Débruitage D'un Signal Par La Transformée en Ondelette Discrète (DWT) Avec Matlab
3 pages
TP Matlab: Interpolation Numérique
Pas encore d'évaluation
TP Matlab: Interpolation Numérique
1 page
Minimisation sans contraintes en optimisation
Pas encore d'évaluation
Minimisation sans contraintes en optimisation
18 pages
Atelier 5
Pas encore d'évaluation
Atelier 5
2 pages
Interpolation
Pas encore d'évaluation
Interpolation
17 pages
TD2: Les Vecteurs: Exercice 1
Pas encore d'évaluation
TD2: Les Vecteurs: Exercice 1
1 page
Introduction au Calcul Éléments Finis
100% (1)
Introduction au Calcul Éléments Finis
56 pages
TP1: Prise en Main Des Notions de Base de L'apprentissage Profond
Pas encore d'évaluation
TP1: Prise en Main Des Notions de Base de L'apprentissage Profond
4 pages
Boukhaima Azarkane TP TDS
Pas encore d'évaluation
Boukhaima Azarkane TP TDS
53 pages
Simplexe Phase2
Pas encore d'évaluation
Simplexe Phase2
25 pages
Exercices d'algorithmique avancée
Pas encore d'évaluation
Exercices d'algorithmique avancée
13 pages
Cours Prof
Pas encore d'évaluation
Cours Prof
50 pages
Cours 3
Pas encore d'évaluation
Cours 3
21 pages
3Chap3SNIA Part1
Pas encore d'évaluation
3Chap3SNIA Part1
30 pages
Résolution de systèmes linéaires par LU
Pas encore d'évaluation
Résolution de systèmes linéaires par LU
17 pages
Exa 9
Pas encore d'évaluation
Exa 9
7 pages
Equations Du Second Degré
Pas encore d'évaluation
Equations Du Second Degré
14 pages