0% ont trouvé ce document utile (0 vote)

95 vues5 pages

Explication Code Big Data

Le document décrit les étapes de la formation d'un modèle K-Means sur des données, y compris la création du modèle, l'entraînement, la prédiction, l'évaluation et l'analyse des résultats. Il montre également comment mettre à l'échelle les données avant le clustering K-Means.

Transféré par

wafae miahi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

95 vues5 pages

Explication Code Big Data

Transféré par

wafae miahi

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd

Code :

#Step 3 - Training our K-Means Model

#Since our Initial Data is well scaled, we can pass it directly to our K-Means

kmeans = KMeans(featuresCol='features',k=4) # k est le nombre de groupe

kmeans_model = kmeans.fit(final_assembled_data)

explication:

1. La première ligne crée une instance de l'algorithme KMeans en utilisant

KMeans(featuresCol='features', k=4). Cela signifie que le modèle K-Means aura une colonne
"features" comme entrée et sera configuré pour créer 4 groupes (ou clusters).

2. Ensuite, la ligne kmeans_model = kmeans.fit(final_assembled_data) entraîne le modèle K-

Means en utilisant les données préparées final_assembled_data. La méthode fit() est utilisée
pour ajuster le modèle aux données fournies.

Après avoir exécuté cette partie du code, kmeans_model contiendra le modèle K-Means
entraîné, qui peut être utilisé pour effectuer des prédictions sur de nouvelles données ou
analyser les groupes formés par l'algorithme.

Code :

#Step 4 - Displaying the segmentation resultat

seg = kmeans_model.transform(final_assembled_data)

print("Prediction Data")

seg.show(50)

centres = kmeans_model.clusterCenters() #Determining the centroids of the cluster (groupe)

print("The company can setup 3 of their towers at these locations- latitudes and longitudes for
optimal network coverage")

cluster_list=[]

i=1

for centre in centres:

cluster_list.append(centre)

print("{} - {}".format(i,centre))

i=i+1

print("\nDetermining the number of users that belongs to each clusters")

seg.groupBy('prediction').count().show()

#code en relation avec la présentation graphique

#......
Explication :

Le code effectue les étapes suivantes :

1. Appliquer le modèle K-Means entraîné (kmeans_model) sur les données préparées

(final_assembled_data) pour attribuer un cluster à chaque point de données. Les résultats
sont stockés dans un nouveau DataFrame appelé seg avec une colonne "prediction" pour
représenter les clusters prédits.

2. Afficher les données prédites en affichant les 50 premières lignes du DataFrame seg.

3. Récupérer les coordonnées des centroïdes des clusters à partir du modèle K-Means et les
afficher en tant que latitudes et longitudes pour les emplacements optimaux de la couverture
réseau.

4. Afficher le nombre d'utilisateurs appartenant à chaque cluster en regroupant les données par
la colonne "prediction" dans le DataFrame seg et en comptant le nombre d'occurrences dans
chaque groupe.

Code :

#Step 4 -Evaluating our model

from pyspark.ml.evaluation import ClusteringEvaluator

evaluator_object = ClusteringEvaluator(predictionCol='prediction',featuresCol='features')

Silhouette_Score = evaluator_object.evaluate(predictions)

evaluator = ClusteringEvaluator()

print("The Silhouette Score when k=3 is {}".format(Silhouette_Score))

explication:

Le code effectue les étapes suivantes :

1. Importer la classe ClusteringEvaluator du module pyspark.ml.evaluation pour évaluer la

qualité des résultats de clustering.

2. Créer une instance de l'évaluateur de clustering avec les colonnes spécifiées pour les
prédictions et les caractéristiques.

3. Évaluer les résultats de clustering en utilisant la métrique de Silhouette avec la méthode

evaluate() de l'évaluateur de clustering, en fournissant un DataFrame contenant les
prédictions du modèle K-Means.

4. Créer une autre instance de l'évaluateur de clustering sans spécifier de colonnes spécifiques.

5. Afficher le score de Silhouette obtenu pour les résultats de clustering lorsque le nombre de
clusters est égal à 3.

Ce code nous permet d'évaluer la qualité des résultats de clustering du modèle K-Means en
utilisant la métrique de Silhouette.
Code :

#wssse = kmeans_model.computeCost(final_assembled_data)

#print("Within Set Sum of Squared Errors = " + str(wssse))

pdt = kmeans_model.transform(final_assembled_data)

evaluator = ClusteringEvaluator()

silhouette = evaluator.evaluate(pdt)

print(silhouette)

cost = kmeans_model.summary.trainingCost

print("Within Set Sum of Squared Errors = " + str(cost))

explication :

1. La ligne wssse = kmeans_model.computeCost(final_assembled_data) calcule la somme des

erreurs quadratiques intra-cluster (Within Set Sum of Squared Errors) pour évaluer la
dispersion des points de données à l'intérieur de chaque cluster. Le résultat est stocké dans la
variable wssse.

2. La ligne pdt = kmeans_model.transform(final_assembled_data) applique le modèle K-Means

aux données d'entrée (final_assembled_data) pour attribuer un cluster à chaque point de
données. Le résultat est stocké dans le DataFrame pdt avec une colonne supplémentaire
"prediction".

3. La ligne evaluator = ClusteringEvaluator() crée une instance de l'évaluateur de clustering.

4. La ligne silhouette = evaluator.evaluate(pdt) calcule le score de silhouette pour évaluer la

qualité des clusters obtenus à partir du modèle K-Means. Le score de silhouette mesure à
quel point chaque point de données est similaire à son propre cluster par rapport aux autres
clusters. Le résultat est stocké dans la variable silhouette.

5. La ligne cost = kmeans_model.summary.trainingCost récupère le coût total de

l'entraînement du modèle K-Means. Ce coût représente la somme des carrés des distances
entre chaque point de données et son centroïde de cluster. Le résultat est stocké dans la
variable cost.

le code calcule la somme des erreurs quadratiques intra-cluster (WSSSE) pour évaluer la
dispersion des points de données à l'intérieur des clusters. Il calcule également le score de
silhouette pour évaluer la qualité des clusters obtenus à partir du modèle K-Means. Ces mesures
fournissent des informations sur la performance et la qualité du modèle K-Means appliqué aux
données d'entrée.
Code :

#Additional Info Step - Performing K-Means with Scaled Features

# Example of Scaling the Data and performing K-Means

from pyspark.ml.feature import StandardScaler

scalar_object = StandardScaler(inputCol='features',outputCol='ScaledFeatures')

scalar_model = scalar_object.fit(final_assembled_data)

final_scaled_data = scalar_model.transform(final_assembled_data)

print("\nConsolidated Data with Scaled Features")

final_scaled_data.show(4)

scaled_kmeans = KMeans(featuresCol='features',k=5)

scaled_kmeans_model = scaled_kmeans.fit(final_scaled_data)

scaled_predictions = scaled_kmeans_model.transform(final_scaled_data)

print("Prediction Data")

scaled_predictions.select('latitude','longitude','ScaledFeatures','prediction').show(4)

scaled_centres = scaled_kmeans_model.clusterCenters()

print("Scaled Tower Locations {}".format(scaled_centres))

Scaled_Silhouette_Score = evaluator_object.evaluate(scaled_predictions)

print("\nThe Silhouette Score when k=5 is {}".format(Scaled_Silhouette_Score))

#print("\nWithin set Sum of Square Error

{}".format(scaled_kmeans_model.computeCost(final_scaled_data)))

print("\nDetermining the number of users that belongs to each clusters")

scaled_predictions.groupBy('prediction').count().show()

explication :

1. Importer la classe StandardScaler du module pyspark.ml.feature pour mettre à l'échelle les

caractéristiques (features) des données.

2. Créer une instance de StandardScaler avec les colonnes d'entrée et de sortie spécifiées.

3. Appliquer le modèle de mise à l'échelle (scalar_model) sur les données d'entrée

(final_assembled_data) pour obtenir les données finales mises à l'échelle
(final_scaled_data). Les données mises à l'échelle sont affichées dans le DataFrame
final_scaled_data.

4. Créer une nouvelle instance du modèle K-Means (scaled_kmeans) en utilisant les

caractéristiques mises à l'échelle (featuresCol='features') et spécifier le nombre de clusters
(k=5).
5. Entraîner le modèle K-Means avec les données finales mises à l'échelle
(scaled_kmeans_model.fit(final_scaled_data)).

6. Appliquer le modèle entraîné (scaled_kmeans_model) sur les données finales mises à

l'échelle pour obtenir les prédictions (scaled_predictions). Les prédictions sont affichées dans
le DataFrame scaled_predictions en sélectionnant certaines colonnes.

7. Déterminer les centres des clusters mises à l'échelle (scaled_centres) à partir du modèle K-
Means.

8. Calculer le score de silhouette pour évaluer la qualité des clusters mises à l'échelle
(Scaled_Silhouette_Score).

9. Afficher le nombre d'utilisateurs appartenant à chaque cluster dans les prédictions

(scaled_predictions.groupBy('prediction').count().show()).

ce code met à l'échelle les caractéristiques des données, effectue le clustering K-Means sur les
données mises à l'échelle, et évalue la qualité des clusters obtenus en utilisant le score de
silhouette. Il fournit également des informations sur les centres des clusters et le nombre
d'utilisateurs appartenant à chaque cluster.

Vous aimerez peut-être aussi

Modèle
Pas encore d'évaluation
Modèle
3 pages
KMeans Notion de Distance Et Initialisation
Pas encore d'évaluation
KMeans Notion de Distance Et Initialisation
7 pages
TP4 Clustering
Pas encore d'évaluation
TP4 Clustering
5 pages
Code Exemple Cluster Produit Stock Rotation
Pas encore d'évaluation
Code Exemple Cluster Produit Stock Rotation
2 pages
Resume ML
Pas encore d'évaluation
Resume ML
7 pages
Résumé ML
Pas encore d'évaluation
Résumé ML
5 pages
ML 1
Pas encore d'évaluation
ML 1
41 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
Tutoriels Utilisation de KNN
Pas encore d'évaluation
Tutoriels Utilisation de KNN
10 pages
TP3 IngSI
100% (1)
TP3 IngSI
5 pages
1
Pas encore d'évaluation
1
6 pages
Non Supervisé Clustring
Pas encore d'évaluation
Non Supervisé Clustring
10 pages
Code K
Pas encore d'évaluation
Code K
2 pages
I. Comprendre Le Problème Et Les Données
Pas encore d'évaluation
I. Comprendre Le Problème Et Les Données
7 pages
Algorithmes de Clustering Non Supervisé
Pas encore d'évaluation
Algorithmes de Clustering Non Supervisé
10 pages
Le Problème de Classification Avec Support Vector Machines (SVM)
Pas encore d'évaluation
Le Problème de Classification Avec Support Vector Machines (SVM)
4 pages
TP Lab Spark
Pas encore d'évaluation
TP Lab Spark
3 pages
Rapport de Projet - BDM
Pas encore d'évaluation
Rapport de Projet - BDM
26 pages
Rapport PFA Khayi Siham 2025 Complet
Pas encore d'évaluation
Rapport PFA Khayi Siham 2025 Complet
7 pages
Med Yassine Tanabene Rapport TP2
Pas encore d'évaluation
Med Yassine Tanabene Rapport TP2
13 pages
Projet Ia
Pas encore d'évaluation
Projet Ia
19 pages
TP5 SDN Clustering
Pas encore d'évaluation
TP5 SDN Clustering
1 page
TD2 KNN Classification
Pas encore d'évaluation
TD2 KNN Classification
12 pages
Classification Des Fleurs Avec KNN Et Évaluation Des Performances
Pas encore d'évaluation
Classification Des Fleurs Avec KNN Et Évaluation Des Performances
14 pages
TP Machine Learning: Régression, KNN, Arbres
100% (1)
TP Machine Learning: Régression, KNN, Arbres
4 pages
IA Exercices Applications (Corrigés)
Pas encore d'évaluation
IA Exercices Applications (Corrigés)
6 pages
Rapport
Pas encore d'évaluation
Rapport
4 pages
Naive Ba Yes
Pas encore d'évaluation
Naive Ba Yes
2 pages
Mini Projet ML
Pas encore d'évaluation
Mini Projet ML
1 page
Classifieur Cancersein
Pas encore d'évaluation
Classifieur Cancersein
5 pages
Tp8 K-meansHaoop
Pas encore d'évaluation
Tp8 K-meansHaoop
11 pages
Résumé Machine Learning&pandas&numpy
Pas encore d'évaluation
Résumé Machine Learning&pandas&numpy
26 pages
Compte Rendu TP1 AI M1ESE
Pas encore d'évaluation
Compte Rendu TP1 AI M1ESE
4 pages
Algo de Classifications
Pas encore d'évaluation
Algo de Classifications
2 pages
Formation Python Pour La Data Science - 5 - Le Machine Learning
100% (1)
Formation Python Pour La Data Science - 5 - Le Machine Learning
23 pages
Spectral Clustering
Pas encore d'évaluation
Spectral Clustering
5 pages
K Moyennes
Pas encore d'évaluation
K Moyennes
6 pages
Algorithme K-Nearest Neighbors (KNN) Analyse Et Implémentation
Pas encore d'évaluation
Algorithme K-Nearest Neighbors (KNN) Analyse Et Implémentation
21 pages
Abcd
Pas encore d'évaluation
Abcd
7 pages
Rapport Use Case Smart Grid
Pas encore d'évaluation
Rapport Use Case Smart Grid
10 pages
Guide KNN SpectralClustering
Pas encore d'évaluation
Guide KNN SpectralClustering
4 pages
Py Decalage
Pas encore d'évaluation
Py Decalage
3 pages
Algorithmes de Machine Learning en Python
Pas encore d'évaluation
Algorithmes de Machine Learning en Python
5 pages
TP Classificateur KNN - Ipynb - Colab
Pas encore d'évaluation
TP Classificateur KNN - Ipynb - Colab
8 pages
Code
Pas encore d'évaluation
Code
4 pages
TP Clustering
Pas encore d'évaluation
TP Clustering
6 pages
TP4 - KNN VF 2022-2023
Pas encore d'évaluation
TP4 - KNN VF 2022-2023
4 pages
Implémentation de K-means en Big Data
Pas encore d'évaluation
Implémentation de K-means en Big Data
3 pages
Resume Machine Learning
Pas encore d'évaluation
Resume Machine Learning
2 pages
Apprentissage Non Supervisé avec K-Means
Pas encore d'évaluation
Apprentissage Non Supervisé avec K-Means
4 pages
TP4 ClassificationSupervisée Student
Pas encore d'évaluation
TP4 ClassificationSupervisée Student
11 pages
TP - 5 - Énoncé - Version 1
Pas encore d'évaluation
TP - 5 - Énoncé - Version 1
4 pages
TP Classification
Pas encore d'évaluation
TP Classification
3 pages
Classification Iris avec KMeans Spark
Pas encore d'évaluation
Classification Iris avec KMeans Spark
6 pages
TP2 IA L2 RobertYave ApprentissageNonSup
Pas encore d'évaluation
TP2 IA L2 RobertYave ApprentissageNonSup
23 pages
Atelier 2 Machine Learning
Pas encore d'évaluation
Atelier 2 Machine Learning
5 pages
Classification Et Évaluation: Objectif Du TP 4
Pas encore d'évaluation
Classification Et Évaluation: Objectif Du TP 4
5 pages
Prediction Du Churn Client
Pas encore d'évaluation
Prediction Du Churn Client
29 pages
Exercice Random Forest Classification Bayesienne
Pas encore d'évaluation
Exercice Random Forest Classification Bayesienne
5 pages
Traka Dalila
Pas encore d'évaluation
Traka Dalila
50 pages
14
Pas encore d'évaluation
14
7 pages
L Eau Dans Notre Environnement Serie D Exercices Non Corriges 4
Pas encore d'évaluation
L Eau Dans Notre Environnement Serie D Exercices Non Corriges 4
2 pages
1 Eps PV
Pas encore d'évaluation
1 Eps PV
6 pages
Demande d'Accès Site TOM
Pas encore d'évaluation
Demande d'Accès Site TOM
2 pages
Correction DS1 A ESEF 24 25
Pas encore d'évaluation
Correction DS1 A ESEF 24 25
2 pages
Jawharat At-Tawhid Bilingue
Pas encore d'évaluation
Jawharat At-Tawhid Bilingue
4 pages
Specification Genie Civil
Pas encore d'évaluation
Specification Genie Civil
46 pages
EPF : École d'ingénieurs engagée et innovante
Pas encore d'évaluation
EPF : École d'ingénieurs engagée et innovante
44 pages
Atelier1 Présentation Makeathon2024
Pas encore d'évaluation
Atelier1 Présentation Makeathon2024
29 pages
Concepts de L'orthodontie Préchirugicale
Pas encore d'évaluation
Concepts de L'orthodontie Préchirugicale
11 pages
Miroirs et dioptres sphériques en optique
Pas encore d'évaluation
Miroirs et dioptres sphériques en optique
15 pages
Points clés pour un compte-rendu de TP
Pas encore d'évaluation
Points clés pour un compte-rendu de TP
1 page
Programme 8 IST VIH
Pas encore d'évaluation
Programme 8 IST VIH
80 pages
Projet Lycée Pro Ekounou : Rapport Final
Pas encore d'évaluation
Projet Lycée Pro Ekounou : Rapport Final
45 pages
TD - Organiser Un Job Dating
Pas encore d'évaluation
TD - Organiser Un Job Dating
3 pages
Les Géants des ERP : Qui Domine ?
Pas encore d'évaluation
Les Géants des ERP : Qui Domine ?
9 pages
Mekong
Pas encore d'évaluation
Mekong
16 pages
Hypothèses - Sollicitations - Contraintes Extension Compression
Pas encore d'évaluation
Hypothèses - Sollicitations - Contraintes Extension Compression
2 pages
Toutes Les Abbréviations - Gestion Hôtelière Et Tourisme
Pas encore d'évaluation
Toutes Les Abbréviations - Gestion Hôtelière Et Tourisme
9 pages
Les Mécanismes de Financement Des Startups Et TPME Au Maroc
100% (1)
Les Mécanismes de Financement Des Startups Et TPME Au Maroc
40 pages
IntroductionlaMEF Chapitre1
Pas encore d'évaluation
IntroductionlaMEF Chapitre1
8 pages
Suites Arithmetico Geometrique Exercices TES
Pas encore d'évaluation
Suites Arithmetico Geometrique Exercices TES
4 pages
Répertoire Optimisé des Séances d'Obstacle
Pas encore d'évaluation
Répertoire Optimisé des Séances d'Obstacle
8 pages
Anglais 2012 Principale Correction
Pas encore d'évaluation
Anglais 2012 Principale Correction
5 pages
الموضوع رقم 36 اختبار الفصل الأول لغة فرنسية شعب علمية ثالثة ثانوي
Pas encore d'évaluation
الموضوع رقم 36 اختبار الفصل الأول لغة فرنسية شعب علمية ثالثة ثانوي
12 pages
Limites et Continuité en Mathématiques
Pas encore d'évaluation
Limites et Continuité en Mathématiques
2 pages
Fluorimetrie Moleculaire - 3
Pas encore d'évaluation
Fluorimetrie Moleculaire - 3
6 pages
Transmission Par Satellite PDF
100% (4)
Transmission Par Satellite PDF
10 pages
Sémiologie du syndrome cérébelleux
Pas encore d'évaluation
Sémiologie du syndrome cérébelleux
22 pages