K-Means Clustering with PySpark

The document outlines a process for clustering customer data using K-Means in PySpark. It includes steps for reading data, assembling features, scaling the data, applying K-Means clustering, and evaluating the model using silhouette scores. Finally, it visualizes the silhouette scores to determine the optimal number of clusters.

Uploaded by

namyachawla8

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views1 page

K-Means Clustering with PySpark

Uploaded by

namyachawla8

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

In [ ]:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName(‘Clustering using K-Means’).getOrCreate()
data_customer=spark.read.csv('prodintdb.csv', header=True, inferSchema=True)
data_customer.printSchema()

In [ ]:
from pyspark.ml.feature import VectorAssembler
data_customer.columns
assemble=VectorAssembler(inputCols=['PDPcountperday','CheckoutHistory','Booked Revnue','B
randname','Styletype'], outputCol='features')
assembled_data=assemble.transform(data_customer)
assembled_data.show(2)

In [ ]:

from pyspark.ml.feature import StandardScaler

scale=StandardScaler(inputCol='features',outputCol='standardized')
data_scale=scale.fit(assembled_data)
data_scale_output=data_scale.transform(assembled_data)
data_scale_output.show(2)

In [ ]:
from pyspark.ml.clustering import KMeans
from pyspark.ml.evaluation import ClusteringEvaluator
silhouette_score=[]
evaluator = ClusteringEvaluator(predictionCol='prediction', featuresCol='standardized', \
metricName='silhouette', distanceMeasure='squaredEuclide
an')
for i in range(2,10):

KMeans_algo=KMeans(featuresCol='standardized', k=i)

KMeans_fit=KMeans_algo.fit(data_scale_output)

output=KMeans_fit.transform(data_scale_output)

score=evaluator.evaluate(output)

silhouette_score.append(score)

print("Silhouette Score:",score)

In [ ]:

#Visualizing the silhouette scores in a plot

import matplotlib.pyplot as plt
fig, ax = plt.subplots(1,1, figsize =(8,6))
ax.plot(range(2,10),silhouette_score)
ax.set_xlabel(‘k’)
ax.set_ylabel(‘cost’)

Clustering-Kprototype Code
No ratings yet
Clustering-Kprototype Code
1 page
KMeans Clustering
No ratings yet
KMeans Clustering
1 page
Untitled Document-2-1-13-7-11.4
No ratings yet
Untitled Document-2-1-13-7-11.4
5 pages
Clustering Mall Data Students
No ratings yet
Clustering Mall Data Students
11 pages
ML2 Practical List
No ratings yet
ML2 Practical List
80 pages
Practical 5
No ratings yet
Practical 5
6 pages
Lecture - 7 - Practical - DBSCAN Clustering in Python
No ratings yet
Lecture - 7 - Practical - DBSCAN Clustering in Python
3 pages
Major
No ratings yet
Major
3 pages
Phase 2
No ratings yet
Phase 2
5 pages
Experiment-3 ML Lab
No ratings yet
Experiment-3 ML Lab
20 pages
Mall Customer Segmentation Guide
No ratings yet
Mall Customer Segmentation Guide
8 pages
K Means Clustering
No ratings yet
K Means Clustering
5 pages
Spark Lab
No ratings yet
Spark Lab
6 pages
K-Means for Customer Segmentation
No ratings yet
K-Means for Customer Segmentation
13 pages
Lab 11 - HT
No ratings yet
Lab 11 - HT
4 pages
Data Science for Customer Segmentation
No ratings yet
Data Science for Customer Segmentation
8 pages
Unit 3
No ratings yet
Unit 3
130 pages
IDM Assignment
No ratings yet
IDM Assignment
15 pages
Customer Segmentation Feedback
No ratings yet
Customer Segmentation Feedback
16 pages
Pyspark MLlib
No ratings yet
Pyspark MLlib
8 pages
2324 BigData Lab3
No ratings yet
2324 BigData Lab3
6 pages
Here's A Python Implementation To A
No ratings yet
Here's A Python Implementation To A
2 pages
Name: Aditya Parade Roll No: 281047 PRN: 22311577 Batch: A-2 Assignment 5
No ratings yet
Name: Aditya Parade Roll No: 281047 PRN: 22311577 Batch: A-2 Assignment 5
3 pages
K Means
No ratings yet
K Means
2 pages
Data Mining and Visualization Techniques
100% (1)
Data Mining and Visualization Techniques
16 pages
Customer Clustering Analysis
No ratings yet
Customer Clustering Analysis
22 pages
BIRCH - DBSCAN (4) - JupyterLab
No ratings yet
BIRCH - DBSCAN (4) - JupyterLab
7 pages
Final Code
No ratings yet
Final Code
3 pages
Dbscan Code Python
No ratings yet
Dbscan Code Python
1 page
Data Clustering Guide for Analysts
No ratings yet
Data Clustering Guide for Analysts
3 pages
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
No ratings yet
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
40 pages
Experiment 2 KMeans Clustering
No ratings yet
Experiment 2 KMeans Clustering
3 pages
Intro Qugates
No ratings yet
Intro Qugates
4 pages
Feature Engineering: Scaling Techniques
No ratings yet
Feature Engineering: Scaling Techniques
13 pages
Day 4
No ratings yet
Day 4
62 pages
Experiment 4 1
No ratings yet
Experiment 4 1
4 pages
DS Prac 8
No ratings yet
DS Prac 8
4 pages
ML0101EN Clus K Means Customer Seg Py v1
100% (1)
ML0101EN Clus K Means Customer Seg Py v1
8 pages
Implement Clustering Algorithms For Unsupervised Classification
No ratings yet
Implement Clustering Algorithms For Unsupervised Classification
4 pages
Practical-8: Import As Import As Import As Import Import As
No ratings yet
Practical-8: Import As Import As Import As Import Import As
9 pages
Exp 8ml
No ratings yet
Exp 8ml
5 pages
Customer Segmentation Analysis
No ratings yet
Customer Segmentation Analysis
18 pages
Kmeansclustering Sales Dataset
No ratings yet
Kmeansclustering Sales Dataset
6 pages
KMeans Clustering Guide
No ratings yet
KMeans Clustering Guide
5 pages
K Means
No ratings yet
K Means
5 pages
LP I Assignment A4 Clustering
No ratings yet
LP I Assignment A4 Clustering
13 pages
Esam - DWM Lab 8
No ratings yet
Esam - DWM Lab 8
5 pages
Aiml Assignment 10
No ratings yet
Aiml Assignment 10
6 pages
Customer Clustering with K-Means
No ratings yet
Customer Clustering with K-Means
3 pages
Market Analysis by Pchandru
No ratings yet
Market Analysis by Pchandru
10 pages
Experiment-7: Implementation of K-Means Clustering Algorithm
No ratings yet
Experiment-7: Implementation of K-Means Clustering Algorithm
3 pages
7b. Clustering in MapReduce and Spark
No ratings yet
7b. Clustering in MapReduce and Spark
15 pages
Subject: ML Name: Priyanshu Gandhi Date: 10/4/21 Expt. No.: 9 Roll No.: C008 Title: Clustering Implementation in Python
No ratings yet
Subject: ML Name: Priyanshu Gandhi Date: 10/4/21 Expt. No.: 9 Roll No.: C008 Title: Clustering Implementation in Python
7 pages
Axe Submission
No ratings yet
Axe Submission
4 pages
Tugas Clustering - 132021012 - Kevin Gazkia Naufal
No ratings yet
Tugas Clustering - 132021012 - Kevin Gazkia Naufal
6 pages
Unit 6 Pyspark - MLlib
No ratings yet
Unit 6 Pyspark - MLlib
6 pages
Customer Segmentation in Python Chapter4
No ratings yet
Customer Segmentation in Python Chapter4
37 pages

K-Means Clustering with PySpark

Uploaded by

K-Means Clustering with PySpark

Uploaded by

In [ ]:

from pyspark.sql import SparkSession

from pyspark.ml.feature import StandardScaler

#Visualizing the silhouette scores in a plot

You might also like