0% ont trouvé ce document utile (0 vote)
33 vues3 pages

Techniques de Clustering K-Means

Le document décrit la technique d'indexation K-Means clustering. Il explique les étapes de l'algorithme K-Means pour regrouper des données en clusters, ainsi qu'un exemple jouet utilisant K-Means clustering sur un corpus de phrases pour créer deux et trois clusters.

Transféré par

Ali Gharsallah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
33 vues3 pages

Techniques de Clustering K-Means

Le document décrit la technique d'indexation K-Means clustering. Il explique les étapes de l'algorithme K-Means pour regrouper des données en clusters, ainsi qu'un exemple jouet utilisant K-Means clustering sur un corpus de phrases pour créer deux et trois clusters.

Transféré par

Ali Gharsallah
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Techniques d’indexation

TP N3
PROF: Ben Aicha Chaima, Zeiri Aya
[email protected]
[email protected]

Les principes
Le clustering K-Means est un algorithme populaire de regroupement non supervisé utilisé pour
trouver des structures similaires dans un ensemble de données.

L'objectif du clustering K-Means est de regrouper les données en K clusters, où K est un


paramètre fixé à l'avance.

Le fonctionnement de K-Means se déroule en plusieurs étapes :

1. Initialisation : Sélectionner aléatoirement K points comme centres de cluster initiaux.

2. Attribution : Assigner chaque point de données au centre de cluster le plus proche.

3. Mise à jour : Mettre à jour les centres de cluster en calculant la moyenne des points
attribués à chaque cluster.

4. Répéter les étapes 2 et 3 jusqu'à convergence.

K-Means regroupe les données en minimisant la distance entre les points de données et les
centres de cluster.

• La distance utilisée est généralement la distance euclidienne.

• Les points de données qui sont proches les uns des autres sont regroupés dans le même
cluster.

• Discuter des avantages et des limitations du clustering K-Means

Exercice :
1. Considérons le corpus suivant de phrases :

textes = [

1
"Penny a acheté de jolis poissons bleus.",

"Penny a acheté un poisson bleu et orange.",

"Le chat a mangé un poisson au magasin.",

"Penny est allée au magasin. Penny a mangé un insecte. Penny a vu un poisson.",

"Il miaulait une fois sur l'insecte, il miaule toujours sur l'insecte et le poisson.",

"Le chat est au magasin de poissons. Le chat est orange. Le chat miaule sur le
poisson.",

"Penny est un poisson"

Utiliser le TfidfVectorizer pour calculer les valeurs TF-IDF (Term Frequency-Inverse


Document Frequency).

2. Pour cette partie de l'exercice, utilisez l'algorithme KMeans pour effectuer le


clustering des documents. Créer deux clusters :
Indice :
o sklearn.cluster : est un module de la bibliothèque Scikit-learn (sklearn) qui fournit
des algorithmes de clustering pour regrouper des données non étiquetées.
L'algorithme KMeans est l'un de ces algorithmes, et il est largement utilisé pour
regrouper des données en clusters dans divers domaines tels que l'analyse de
données, l'apprentissage automatique et le traitement de texte.
o KMeans : Cette classe de Scikit-learn implémente l'algorithme de clustering KMeans.

a. Une fois que vous avez initialisé l'objet KMeans avec le nombre approprié de clusters,
utilisez la méthode fit pour entraîner l'algorithme sur la matrice TF-IDF.
Indice :
o fit() est utilisée pour entraîner le modèle sur les données d'entraînement.

b. Affichage des termes principaux de chaque cluster.

3. Pour cette partie de l'exercice, utilisez l'algorithme KMeans pour effectuer le


clustering des documents. Créer trois clusters :

2
a. Une fois que vous avez initialisé l'objet KMeans avec le nombre approprié de clusters,
utilisez la méthode fit pour entraîner l'algorithme sur la matrice TF-IDF.

b. Affichage des termes principaux de chaque cluster.

c. Stocker les résultats du clustering dans un DataFrame pour une analyse ultérieure.

Vous aimerez peut-être aussi