Clustering Tutorial

Uploaded by

Koustubh Hire

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views4 pages

Clustering Tutorial

Uploaded by

Koustubh Hire

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

9/16/25, 3:47 PM clustering_tutorial.

ipynb - Colab

1 # Step 1: Import libraries

2 import pandas as pd
3 import numpy as np
4 import [Link] as plt
5 from [Link] import KMeans
6 from [Link] import StandardScaler
7
8 # Step 2: Create a sample dataset (20 customers instead of 10)
9 data = {
10 'CustomerID': list(range(1, 21)),
11 'Age': [19,21,20,23,31,22,35,40,52,47,
12 25,29,33,45,50,28,37,42,55,60],
13 'Annual_Income(k$)': [15,15,16,16,17,17,25,40,60,55,
14 18,20,22,35,58,30,26,45,62,70],
15 'Spending_Score(1-100)': [39,81,6,77,40,76,50,20,10,30,
16 65,55,25,15,12,70,45,18,8,5]
17 }
18
19 df = [Link](data)
20
21 print("Dataset Head:\n", [Link]())
22
23 # Step 3: Select features for clustering (Age & Spending Score)
24 X = df[['Age', 'Spending_Score(1-100)']]
25
26 # Optional: Standardize the data
27 scaler = StandardScaler()
28 X_scaled = scaler.fit_transform(X)
29
30 # Step 4: Run K-Means
31 kmeans = KMeans(n_clusters=4, random_state=42, n_init=10)
32 df['Cluster'] = kmeans.fit_predict(X_scaled)
33
34 print("\nClustered Data:\n", df)
35
36 # Step 5: Visualize clusters
37 [Link](figsize=(5,3))
38 colors = ['red','blue','green','magenta']
39 for cluster in range(4):
40 cluster_points = df[df['Cluster'] == cluster]
41 [Link](cluster_points['Age'],
42 cluster_points['Spending_Score(1-100)'],
43 s=100, c=colors[cluster], label=f'Cluster {cluster}')
44
45 # Plot cluster centers
46 centers = scaler.inverse_transform(kmeans.cluster_centers_)
47 [Link](centers[:,0], centers[:,1], s=300, c='yellow', marker='*', label='Centroids')
48
49 [Link]("Age")
50 [Link]("Spending Score (1-100)")
51 [Link]("Customer Segmentation using K-Means (20 Customers)")
52 [Link]()
53 [Link]()
54
55
56
57
58

[Link] 1/4
9/16/25, 3:47 PM clustering_tutorial.ipynb - Colab

Dataset Head:
CustomerID Age Annual_Income(k$) Spending_Score(1-100)
0 1 19 15 39
1 2 21 15 81
2 3 20 16 6
3 4 23 16 77
4 5 31 17 40

Clustered Data:
CustomerID Age Annual_Income(k$) Spending_Score(1-100) Cluster
0 1 19 15 39 0
1 2 21 15 81 3
2 3 20 16 6 0
3 4 23 16 77 3
4 5 31 17 40 2
5 6 22 17 76 3
6 7 35 25 50 2
7 8 40 40 20 1
8 9 52 60 10 1
9 10 47 55 30 1
10 11 25 18 65 3
11 12 29 20 55 2
12 13 33 22 25 2
13 14 45 35 15 1
14 15 50 58 12 1
15 1 import16pandas
28 as pd 30 70 3
16 2 import17numpy
37 as np 26 45 2
17 18 42 45 18 1
3 from [Link] import KMeans
18 19 55 62 8 1
4 from [Link] import StandardScaler
19 20 60 70 5 1
5
6 # Step 1: Create dataset (20 customers)
7 data = {
8 'CustomerID': list(range(1, 21)),
9 'Age': [19,21,20,23,31,22,35,40,52,47,
10 25,29,33,45,50,28,37,42,55,60],
11 'Annual_Income(k$)': [15,15,16,16,17,17,25,40,60,55,
12 18,20,22,35,58,30,26,45,62,70],
13 'Spending_Score(1-100)': [39,81,6,77,40,76,50,20,10,30,
14 65,55,25,15,12,70,45,18,8,5]
15 }
16
17 df = [Link](data)
18
19 # Step 2: Select features
20 X = df[['Age', 'Annual_Income(k$)', 'Spending_Score(1-100)']]
21
22 # Standardize features
23 scaler = StandardScaler()
24 X_scaled = scaler.fit_transform(X)
25
26 # Step 3: Run K-Means
27 kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
28 df['Cluster'] = kmeans.fit_predict(X_scaled)
29
30 # Step 4: Get cluster centroids (convert back from scaled units)
31 centroids_scaled = kmeans.cluster_centers_
32 centroids = scaler.inverse_transform(centroids_scaled)
33 centroid_df = [Link](centroids,
34 columns=['Age', 'Annual_Income(k$)', 'Spending_Score(1-100)'])
35 centroid_df['Cluster'] = range(0, len(centroid_df))
36
37 # Step 5: Save both to CSV
38 # Save customers with their clusters
39 df.to_csv("customer_clusters.csv", index=False)
40
41 # Save cluster centroids
42 centroid_df.to_csv("cluster_centroids.csv", index=False)
43
44 print("✅ Files saved: customer_clusters.csv and cluster_centroids.csv")
45 print("\nCluster Centroids:\n", centroid_df)
46

✅ Files saved: customer_clusters.csv and cluster_centroids.csv

Cluster Centroids:
Age Annual_Income(k$) Spending_Score(1-100) Cluster
0 23.800000 19.200000 73.800000 0
1 48.875000 53.125000 14.750000 1
2 29.142857 20.142857 37.142857 2

1 import [Link] as plt

2 import pandas as pd
3 import numpy as np
4 from [Link] import StandardScaler

[Link] 2/4
9/16/25, 3:47 PM clustering_tutorial.ipynb - Colab
5
6 # Step 1: Create a sample dataset
7 data = {
8 'CustomerID': [1,2,3,4,5,6,7,8,9,10],
9 'Age': [19,21,20,23,31,22,35,40,52,47],
10 'Annual_Income(k$)': [15,15,16,16,17,17,25,40,60,55],
11 'Spending_Score(1-100)':[39,81,6,67,40,76,50,20,10,30]
12 }
13 df = [Link](data)
14 X = df[['Age', 'Spending_Score(1-100)']]
15
16 # Standardize features
17 scaler = StandardScaler()
18 X_scaled = scaler.fit_transform(X)
19
20 # Step 2: K-Means manual iterations with plots
21 def kmeans_static_plots(X_scaled, X_original, n_clusters=3, max_iter=4):
22 [Link](99)
23 # Initialize cluster centers randomly
24 initial_idx = [Link](len(X_scaled), n_clusters, replace=False)
25 centers = X_scaled[initial_idx]
26
27 for i in range(max_iter):
28 # Assign clusters
29 distances = [Link](X_scaled[:, [Link]] - centers, axis=2)
30 labels = [Link](distances, axis=1)
31
32 # Plot
33 [Link](figsize=(5,4))
34 colors = ['red','blue','green']
35 for cluster in range(n_clusters):
36 cluster_points = X_original[[Link](labels) == cluster]
37 [Link](cluster_points[:,0], cluster_points[:,1],
38 s=80, c=colors[cluster], label=f'Cluster {cluster}')
39
40 # Plot centers
41 centers_original = scaler.inverse_transform(centers)
42 [Link](centers_original[:,0], centers_original[:,1],
43 s=300, c='yellow', marker='*', label='Centroids')
44
45 [Link](f"K-Means Iteration {i+1}")
46 [Link]("Age")
47 [Link]("Spending Score (1-100)")
48 [Link]()
49 [Link]()
50
51 # Update centers for next iteration
52 new_centers = []
53 for cluster in range(n_clusters):
54 cluster_points = X_scaled[labels == cluster]
55 if len(cluster_points) > 0:
56 new_centers.append(cluster_points.mean(axis=0))
57 else:
58 new_centers.append(centers[cluster])
59 centers = [Link](new_centers)
60
61 # Step 3: Run
62 kmeans_static_plots(X_scaled, [Link], n_clusters=3, max_iter=4)
63

[Link] 3/4
9/16/25, 3:47 PM clustering_tutorial.ipynb - Colab

[Link] 4/4

Ex No - 9
No ratings yet
Ex No - 9
10 pages
Project 13 Customer Segmentation Using K Means Clustering
No ratings yet
Project 13 Customer Segmentation Using K Means Clustering
9 pages
Customer Segmentation Analysis
No ratings yet
Customer Segmentation Analysis
3 pages
K-Means Clustering with Elbow Method
No ratings yet
K-Means Clustering with Elbow Method
2 pages
Btech1010622 Lab4
No ratings yet
Btech1010622 Lab4
4 pages
Unit3
No ratings yet
Unit3
7 pages
Exp8 Clutering
No ratings yet
Exp8 Clutering
5 pages
K Means Clustering For Customer Data
No ratings yet
K Means Clustering For Customer Data
6 pages
Reading Data: #Importing Required Libraries
No ratings yet
Reading Data: #Importing Required Libraries
16 pages
Experiment 8 Heirarchical Clustering
No ratings yet
Experiment 8 Heirarchical Clustering
17 pages
ML Lab Exp 7 K-Means Clustering
No ratings yet
ML Lab Exp 7 K-Means Clustering
14 pages
K Means
No ratings yet
K Means
5 pages
Customer Clustering Analysis
No ratings yet
Customer Clustering Analysis
22 pages
Exp 12 and 15
No ratings yet
Exp 12 and 15
4 pages
Assignment5 VidulGarg
No ratings yet
Assignment5 VidulGarg
12 pages
ML Assignment No 5
No ratings yet
ML Assignment No 5
11 pages
Linear Regression for Beginners
No ratings yet
Linear Regression for Beginners
6 pages
PROGRAMACION
No ratings yet
PROGRAMACION
3 pages
Practical 4
No ratings yet
Practical 4
9 pages
Tugas Clustering - 132021012 - Kevin Gazkia Naufal
No ratings yet
Tugas Clustering - 132021012 - Kevin Gazkia Naufal
6 pages
Implement Clustering Algorithms For Unsupervised Classification
No ratings yet
Implement Clustering Algorithms For Unsupervised Classification
4 pages
Clustering Algorithms for Data Analysis
No ratings yet
Clustering Algorithms for Data Analysis
7 pages
AI Practical File Certificate Template
No ratings yet
AI Practical File Certificate Template
19 pages
DWM Practical
No ratings yet
DWM Practical
12 pages
Walmart - Ipynb - Colaboratory
No ratings yet
Walmart - Ipynb - Colaboratory
6 pages
Practical 5
No ratings yet
Practical 5
6 pages
KMEANS
No ratings yet
KMEANS
13 pages
ML 1-11
No ratings yet
ML 1-11
27 pages
Program 4: Public
No ratings yet
Program 4: Public
10 pages
ML Lab Manual 1-10
No ratings yet
ML Lab Manual 1-10
58 pages
DM Lab Internal
No ratings yet
DM Lab Internal
37 pages
AML Project LearnerNotebook LowCode
No ratings yet
AML Project LearnerNotebook LowCode
74 pages
Analysis
No ratings yet
Analysis
37 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
1 page
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
Data Science Project VI - Ipynb - Colaboratory
No ratings yet
Data Science Project VI - Ipynb - Colaboratory
15 pages
K-Means Clustering - Jupyter Notebook
No ratings yet
K-Means Clustering - Jupyter Notebook
11 pages
Data Science Research Paper
No ratings yet
Data Science Research Paper
51 pages
NN Model and Gap Statistic Analysis
80% (10)
NN Model and Gap Statistic Analysis
14 pages
Machine Learning
No ratings yet
Machine Learning
22 pages
Data Mining Practicals Complete
No ratings yet
Data Mining Practicals Complete
13 pages
Mall Customer Data Generation
No ratings yet
Mall Customer Data Generation
2 pages
PMA Experiment 2
No ratings yet
PMA Experiment 2
6 pages
Oddstudents
No ratings yet
Oddstudents
35 pages
Python LAB
No ratings yet
Python LAB
50 pages
ML FINAL Lab Manual
No ratings yet
ML FINAL Lab Manual
7 pages
Aishwarya ADP Control Structure 1
No ratings yet
Aishwarya ADP Control Structure 1
4 pages
ML Exp5 C36
No ratings yet
ML Exp5 C36
18 pages
Data Visualization Techniques in Python
No ratings yet
Data Visualization Techniques in Python
24 pages
Grade 10 AI Practical File With Solutions (HIBA KHAN - 10F)
No ratings yet
Grade 10 AI Practical File With Solutions (HIBA KHAN - 10F)
13 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Topic 4 Basic Programming Concepts
No ratings yet
Topic 4 Basic Programming Concepts
3 pages
Week 01.a
No ratings yet
Week 01.a
4 pages
AMCCATALAN DS Python Summative
No ratings yet
AMCCATALAN DS Python Summative
10 pages
Exploratory Data Analysis66
No ratings yet
Exploratory Data Analysis66
17 pages
FD Session 3&4 - Forward Rate Agreements
No ratings yet
FD Session 3&4 - Forward Rate Agreements
28 pages
FD Session 5&6 - Eurodollar Futures and Treasury Bond Futures
No ratings yet
FD Session 5&6 - Eurodollar Futures and Treasury Bond Futures
21 pages
Banking Interview Questions
No ratings yet
Banking Interview Questions
24 pages
Recommendation System Clustering
No ratings yet
Recommendation System Clustering
3 pages
Line 9 Data May 2025
No ratings yet
Line 9 Data May 2025
12 pages
Mba - 3061 - 10 A3
No ratings yet
Mba - 3061 - 10 A3
3 pages
Prompt Engineering Handout
No ratings yet
Prompt Engineering Handout
2 pages
Final Report For
No ratings yet
Final Report For
15 pages
Filter Check Sheet Analysis 6
No ratings yet
Filter Check Sheet Analysis 6
2 pages
Delta e Valuation
No ratings yet
Delta e Valuation
4 pages
ML Imp Questions
No ratings yet
ML Imp Questions
4 pages
22AMC03 Introduction To Machine Learning
No ratings yet
22AMC03 Introduction To Machine Learning
2 pages
Extreme Rare Event Classification Using Autoencoders in Keras - by Chitta Ranjan - Towards Data Science
No ratings yet
Extreme Rare Event Classification Using Autoencoders in Keras - by Chitta Ranjan - Towards Data Science
14 pages
Lab 7
No ratings yet
Lab 7
4 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
Machine Learning Classification Guide
No ratings yet
Machine Learning Classification Guide
28 pages
R Clustering for Data Scientists
No ratings yet
R Clustering for Data Scientists
54 pages
Machine Learning for Network Intrusion Detection
No ratings yet
Machine Learning for Network Intrusion Detection
7 pages
Employee Attrition Prediction Using KNN
No ratings yet
Employee Attrition Prediction Using KNN
3 pages
Cheat Sheet For Exam
No ratings yet
Cheat Sheet For Exam
2 pages
Model Evaluation and Selection
No ratings yet
Model Evaluation and Selection
41 pages
Student Dropout
No ratings yet
Student Dropout
38 pages
Binary ClassificationMetrics Cheathsheet
No ratings yet
Binary ClassificationMetrics Cheathsheet
7 pages
Tutorial 8
No ratings yet
Tutorial 8
2 pages
C02 03
0% (1)
C02 03
58 pages
ML Lecture#4
No ratings yet
ML Lecture#4
109 pages
Ordered Probit and Logit Models Stata Program and Output PDF
No ratings yet
Ordered Probit and Logit Models Stata Program and Output PDF
7 pages
The Result of Pre and Post Test
No ratings yet
The Result of Pre and Post Test
2 pages
Session-11 Machine Learning - Jupyter Notebook
No ratings yet
Session-11 Machine Learning - Jupyter Notebook
11 pages
Topic 08 - Data Modelling - Part II
No ratings yet
Topic 08 - Data Modelling - Part II
59 pages
CS585 Lecture October03rd
No ratings yet
CS585 Lecture October03rd
146 pages
Precision and Recall
No ratings yet
Precision and Recall
5 pages
Machine Learning With Tree-Based Models in R - Slides
No ratings yet
Machine Learning With Tree-Based Models in R - Slides
173 pages
Lecture Sheet
No ratings yet
Lecture Sheet
3 pages
ML101 Graded Assignment 2.ipynb - Colab
No ratings yet
ML101 Graded Assignment 2.ipynb - Colab
6 pages
Lecture 3.2.3 3.2.4
No ratings yet
Lecture 3.2.3 3.2.4
28 pages
CUML1021 Machine Learning For Predictive Analytics Syllabus
No ratings yet
CUML1021 Machine Learning For Predictive Analytics Syllabus
4 pages
Naive Bayes Gaussian Table Tennis - Jupyter Notebook
No ratings yet
Naive Bayes Gaussian Table Tennis - Jupyter Notebook
6 pages
EM vs K-Means Clustering Comparison
No ratings yet
EM vs K-Means Clustering Comparison
3 pages
Lab1 PDF
No ratings yet
Lab1 PDF
4 pages

Clustering Tutorial

Uploaded by

Clustering Tutorial

Uploaded by

9/16/25, 3:47 PM clustering_tutorial.

1 # Step 1: Import libraries

✅ Files saved: customer_clusters.csv and cluster_centroids.csv

1 import [Link] as plt

You might also like