0% found this document useful (0 votes)

46 views9 pages

PCA Scatter Plot Analysis in Python

Python Code for simple TikTok Game

Uploaded by

Vedant Gade

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

46 views9 pages

PCA Scatter Plot Analysis in Python

Python Code for simple TikTok Game

Uploaded by

Vedant Gade

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

# Import necessary libraries

import pandas as pd
from matplotlib import pyplot as plt
from [Link] import PCA
from [Link] import SVC
import seaborn as sns
from [Link] import KMeans
# Read the excel data using pandas
raw_data = pd.read_excel("C:/Users/Bobby/Documents/Food and [Link]")
# Print the first few rows of the data
print(raw_data.head())
# Print statistical summary of the data
print(raw_data.describe())
# Print information about the data
print(raw_data.info)
# Extract column names and first 100 rows
X = list(raw_data.head(76).columns)
y = tuple(raw_data.head(100).iterrows())
# Print column names and a subset of rows
print(X)
print(y[1:10])
# Convert data into a dictionary
data = dict(zip(X, y))
print([Link]())
print([Link]())
# Create an empty list to store dictionaries
food_data = []
# Loop through each row and convert it to a dictionary
for row in y:
row_data = [Link]("\t") # Assuming the data is tab-separated
food_dict = dict(zip(columns, row_data
# Convert values to a list where applicable
for key in food_dict:
if isinstance(food_dict[key], str) and key != "name" and key != "serving_size":
food_dict[key] = [food_dict[key]]
elif isinstance(food_dict[key], int):
food_dict[key] = [food_dict[key]]
# Append the dictionary to the list
food_data.append(food_dict)
# Now, 'food_data' is a list containing dictionaries for all rows
# Create an empty list to store dictionaries
list_of_dicts = []
for x in range(0, len(X)):
row_dict = raw_data.iloc[x].to_dict()
list_of_dicts.append(row_dict)
# Check for missing values
ms = missing_values = raw_data.isnull()
#raw_data.fillna(raw_data.sum(), inplace=True)
# Subset of columns for analysis
subset_columns = ["name", "serving_size", "calories", "total_fat", "saturated_fat",
"cholesterol", "sodium", "choline",
"folate", "folic_acid", "niacin", "pantothenic_acid", "riboflavin", "thiamin",
"vitamin_a",
"vitamin_a_rae",
"carotene_alpha", "carotene_beta", "cryptoxanthin_beta", "lutein_zeaxanthin",
"lucopene",
"vitamin_b12",
"vitamin_b6", "vitamin_c", "vitamin_d", "vitamin_e",
"tocopherol_alpha", "vitamin_k", "calcium", "copper",
"irom", "magnesium", "manganese", "phosphorous", "potassium",
"selenium", "zink", "protein", "alanine",
"arginine", "aspartic_acid", "cystine", "glutamic_acid", "glycine", "histidine",
"hydroxyproline",
"isoleucine", "leucine", "lysine", "methionine", "phenylalanine", "proline",
"serine", "threonine",
"tryptophan", "tyrosine", "valine", "carbohydrate", "fiber", "sugars", "fructose",
"galactose", "glucose",
"lactose", "maltose", "sucrose", "fat", "saturated_fatty_acids",
"monounsaturated_fatty_acids",
"polyunsaturated_fatty_acids", "fatty_acids_total_trans", "alcohol", "ash",
"caffeine", "theobromine",
"water"]
# Example: Create a scatter plot between two numeric columns
[Link](raw_data['serving_size'], raw_data['calories'], cmap='inferno', linewidths=0.56,
c='g')
[Link]()
[Link]('Serving Size')
[Link]('Calories')
[Link]('Scatter Plot for Bivariate Analysis')
[Link]()
# Calculate the correlation matrix
raw_data1 = raw_data.drop(columns='name')
correlation_matrix = raw_data1.corr()
filled_values = raw_data1.dropna()
# Multivariate Analysis
numerical_data = raw_data.drop(columns=['name'])
# Perform PCA
pca = PCA(n_components=3)
pca_result = pca.fit_transform(filled_values)
# Scatter plot of PCA result
[Link](figsize=(8, 6))
[Link](pca_result[:, 0], pca_result[:, 1], alpha=0.6, linewidths=(3, 4), cmap='gray',
c='gray')
[Link]()
[Link]('Principal Component 1')
[Link]('Principal Component 2')
[Link]()
[Link]('PCA Result: 2D Scatterplot')
[Link](True)
[Link]()
# Check if the columns exist in the DataFrame
# missing_columns = [col for col in subset_columns if col not in raw_data.columns]
# if not missing_columns:
# Your pair plot code here
# [Link](raw_data[subset_columns])
# [Link]()
# else:
# print("Columns not found in DataFrame:", missing_columns)
# print("Available columns:", raw_data.columns)
# print("Column data types:", raw_data.dtypes)
print(filled_values)
# Perform K-Means clustering
n_clusters = KMeans(n_clusters=50, n_init="auto", algorithm='lloyd', max_iter=1000)
no_clusters = n_clusters.fit_transform(filled_values)
# Scatter plot of K-Means clusters
[Link](figsize=(5, 8))
[Link](1, 1, 1)
[Link](no_clusters[:, 0], no_clusters[:, 1], linewidths=(2, 3), c='b', cmap='inferno')
[Link]()
[Link](True)
[Link]()
# Performing Bivariate analysis on the data using histogram
[Link](filled_values, x='serving_size', y='calories', stat="count", binwidth=0.56,
bins="auto", element='step',
palette='colorblind', binrange=(100, 200))
[Link]()
1)pandas:

Description: Pandas is a popular Python library for data manipulation and

analysis. It provides data structures like dataframes and series for working
with structured data.

2)[Link]:
Description: Matplotlib is a data visualization library for creating static,
animated, or interactive plots in Python. pyplot is a collection of functions
that provide a simple interface for creating various types of plots.

3) [Link]:

Description: This is part of the scikit-learn library (sklearn) and provides

Principal Component Analysis (PCA) for dimensionality reduction and
feature extraction.

4)[Link]:

Description: This is also part of scikit-learn and stands for Support Vector
Classification. It is used for classification tasks using Support Vector
Machines (SVM).

5)seaborn:

Description: Seaborn is a data visualization library based on Matplotlib. It

provides a high-level interface for creating informative and attractive
statistical graphics.

6)[Link]:
Description: Another part of scikit-learn, KMeans is an unsupervised
machine learning algorithm used for clustering data into groups based on
similarity.

a)Import necessary libraries:

import pandas as pd
from matplotlib import pyplot as plt
from [Link] import PCA
from [Link] import SVC
import seaborn as sns
from [Link] import KMeans

b)Read the data from an Excel file using Pandas:

raw_data = pd.read_excel("C:/Users/Bobby/Documents/Food and

[Link]")

c)Extract and print the first few rows and statistical summary of the data:

print(raw_data.head())
print(raw_data.describe())

d)Extract column names and a subset of rows:

X = list(raw_data.head(76).columns)
y = tuple(raw_data.head(100).iterrows())
e)Convert data into a dictionary and print values and keys:

data = dict(zip(X, y))

print([Link]())
print([Link]())

f)Create an empty list to store dictionaries and convert rows to dictionaries:

food_data = []
for row in y:
row_data = [Link]("\t")
food_dict = dict(zip(columns, row_data))
# Convert values to lists where applicable
and append the dictionary
food_data.append(food_dict)

g)Create a list of dictionaries and check for missing values:

list_of_dicts = []
for x in range(0, len(X)):
row_dict = raw_data.iloc[x].to_dict()
list_of_dicts.append(row_dict)

ms = missing_values = raw_data.isnull()

h)Define a subset of columns for analysis:

subset_columns = [list of column names]

i)Create a scatter plot between two numeric columns:

[Link](raw_data['serving_size'], raw_data['calories'], cmap='inferno',

linewidths=0.56, c='g')
[Link]()
[Link]('Serving Size')
[Link]('Calories')
[Link]('Scatter Plot for Bivariate Analysis')
[Link]()

j)Calculate the correlation matrix and perform PCA:

raw_data1 = raw_data.drop(columns='name')
correlation_matrix = raw_data1.corr()
filled_values = raw_data1.dropna()

pca = PCA(n_components=3)
pca_result = pca.fit_transform(filled_values)

k)Create a scatter plot of PCA result:

[Link](figsize=(8, 6))
[Link](pca_result[:, 0], pca_result[:, 1], alpha=0.6, linewidths=(3, 4),
cmap='gray', c='gray')
[Link]()
[Link]('Principal Component 1')
[Link]('Principal Component 2')
[Link]()
[Link]('PCA Result: 2D Scatterplot')
[Link](True)
[Link]()

l)Perform K-Means clustering and create a scatter plot of clusters:

n_clusters = KMeans(n_clusters=50, n_init="auto", algorithm='lloyd',

max_iter=1000)
no_clusters = n_clusters.fit_transform(filled_values)

[Link](figsize=(5, 8))
[Link](1, 1, 1)
[Link](no_clusters[:, 0], no_clusters[:, 1], linewidths=(2, 3), c='b',
cmap='inferno')
[Link]()
[Link](True)
[Link]()

m)Perform bivariate analysis using a histogram:

[Link](filled_values, x='serving_size', y='calories', stat="count",

binwidth=0.56, bins="auto",
element='step', palette='colorblind', binrange=(100, 200))
[Link]()

Data Dictionary Data Dictionary: Set The Working Directory Set The Working Directory
No ratings yet
Data Dictionary Data Dictionary: Set The Working Directory Set The Working Directory
15 pages
Matplotlib Inline PD Set - Option (, X: X) : Import As Import As Import As Import As Lambda Import As Import
No ratings yet
Matplotlib Inline PD Set - Option (, X: X) : Import As Import As Import As Import As Lambda Import As Import
14 pages
Clustering
No ratings yet
Clustering
30 pages
PES University, Bangalore: UE21CS342AA2 - Data Analytics - Worksheet 4B
No ratings yet
PES University, Bangalore: UE21CS342AA2 - Data Analytics - Worksheet 4B
1 page
Food Recommendation System
No ratings yet
Food Recommendation System
13 pages
R Package Installation Guide
No ratings yet
R Package Installation Guide
10 pages
Empirical Crop Suitability Model 1694688954
No ratings yet
Empirical Crop Suitability Model 1694688954
24 pages
Assignment Food and Nutrition
No ratings yet
Assignment Food and Nutrition
3 pages
McDonald's Nutritional Data Analysis
No ratings yet
McDonald's Nutritional Data Analysis
10 pages
Cereal Test
No ratings yet
Cereal Test
17 pages
Isocaloric Codes
No ratings yet
Isocaloric Codes
6 pages
FP Growth Algorithm Guide
No ratings yet
FP Growth Algorithm Guide
6 pages
SAS Program For Processing NHANES Data From "Dietary Interview, Individual Foods - First Day" File (DR1IFF)
No ratings yet
SAS Program For Processing NHANES Data From "Dietary Interview, Individual Foods - First Day" File (DR1IFF)
5 pages
App
No ratings yet
App
4 pages
Data Visualization with Python Lab
No ratings yet
Data Visualization with Python Lab
21 pages
Project 16 Calories Burnt Prediction
No ratings yet
Project 16 Calories Burnt Prediction
10 pages
FFST 224 Ood Composition 2
No ratings yet
FFST 224 Ood Composition 2
16 pages
Data Analysis Exercises for Beginners
No ratings yet
Data Analysis Exercises for Beginners
43 pages
Experiment No. 9
No ratings yet
Experiment No. 9
9 pages
Mokhless Hajji Project
No ratings yet
Mokhless Hajji Project
5 pages
McDonald's Nutrition Data Analysis
No ratings yet
McDonald's Nutrition Data Analysis
22 pages
Data Cleaning
No ratings yet
Data Cleaning
22 pages
Chennai Map Analysis
No ratings yet
Chennai Map Analysis
16 pages
Cereal Data Analysis and Modeling
No ratings yet
Cereal Data Analysis and Modeling
2 pages
Indian Food Analysis 1
No ratings yet
Indian Food Analysis 1
22 pages
Message
No ratings yet
Message
3 pages
Data Science Libraries
No ratings yet
Data Science Libraries
4 pages
Z-Test Implementation with Pandas
No ratings yet
Z-Test Implementation with Pandas
39 pages
Vinay Kumar Kannegala Siddalingappa HW4D
No ratings yet
Vinay Kumar Kannegala Siddalingappa HW4D
1 page
Assignment 6
No ratings yet
Assignment 6
7 pages
PCA Analysis of Wine Quality Data
100% (1)
PCA Analysis of Wine Quality Data
1 page
INF2008 Lecture09
No ratings yet
INF2008 Lecture09
46 pages
Import As From Import From Import Import As
No ratings yet
Import As From Import From Import Import As
5 pages
Main2 Py
No ratings yet
Main2 Py
2 pages
Informatics Practices: Project Work
No ratings yet
Informatics Practices: Project Work
24 pages
Assignment
No ratings yet
Assignment
17 pages
Diet Problems
No ratings yet
Diet Problems
5 pages
Dietr
No ratings yet
Dietr
21 pages
1997
No ratings yet
1997
33 pages
Data Mining Solve
No ratings yet
Data Mining Solve
5 pages
Dsa 1
No ratings yet
Dsa 1
8 pages
Personalized Diet Recommendation System
No ratings yet
Personalized Diet Recommendation System
31 pages
Coding
No ratings yet
Coding
6 pages
Indian Cuisine Analysis: Data Insights
No ratings yet
Indian Cuisine Analysis: Data Insights
15 pages
KNN - Jupyter Notebook
No ratings yet
KNN - Jupyter Notebook
7 pages
22AD004 - DVE - Assignment 3
No ratings yet
22AD004 - DVE - Assignment 3
13 pages
R Based Project
No ratings yet
R Based Project
24 pages
Patient Data Management System
100% (1)
Patient Data Management System
27 pages
Prashant ML Tree Okay
No ratings yet
Prashant ML Tree Okay
8 pages
Health App Data 5
No ratings yet
Health App Data 5
10 pages
Smart Cropping
No ratings yet
Smart Cropping
28 pages
DS Food
No ratings yet
DS Food
18 pages
Ex 1
No ratings yet
Ex 1
8 pages
Tamur Khan: Import As From Import Import As
No ratings yet
Tamur Khan: Import As From Import Import As
7 pages
Department of Statistics: COURSE STATS 330/762
No ratings yet
Department of Statistics: COURSE STATS 330/762
8 pages
UNIT 3 4 Feature Relevance Marginal Entropy
No ratings yet
UNIT 3 4 Feature Relevance Marginal Entropy
4 pages
Pandas Notes
No ratings yet
Pandas Notes
5 pages
5be8701130c118257ddc838b10d8fe12
No ratings yet
5be8701130c118257ddc838b10d8fe12
6 pages
DBMS Commands and Normalization
No ratings yet
DBMS Commands and Normalization
19 pages
Determinants How To Solve 3 3 Determants 1 2 - 1 0 4 1 1 3 4
No ratings yet
Determinants How To Solve 3 3 Determants 1 2 - 1 0 4 1 1 3 4
2 pages
1.write The Structure Declaration in C With Suitable Example
No ratings yet
1.write The Structure Declaration in C With Suitable Example
2 pages
An If
No ratings yet
An If
9 pages
MML-2 Practicals
No ratings yet
MML-2 Practicals
14 pages
1
No ratings yet
1
3 pages
Library Management System Using C
No ratings yet
Library Management System Using C
5 pages
MML Chinmay
No ratings yet
MML Chinmay
10 pages
Micro Project: Ajeenkya D. Y. Patil School of Engineering (Second Shift Polytechnic)
No ratings yet
Micro Project: Ajeenkya D. Y. Patil School of Engineering (Second Shift Polytechnic)
10 pages
Micro Project: Dr. D. Y. Patil School of Engineering (Second Shift Polytechnic)
No ratings yet
Micro Project: Dr. D. Y. Patil School of Engineering (Second Shift Polytechnic)
9 pages
IT Product Marketing Course
No ratings yet
IT Product Marketing Course
8 pages
Ride-Through Analysis of Doubly Fed Induction Wind-Power Generator Under Unsymmetrical Network Disturbance
No ratings yet
Ride-Through Analysis of Doubly Fed Induction Wind-Power Generator Under Unsymmetrical Network Disturbance
8 pages
Gaggia Syncrony Logic Part Diagram PDF
100% (1)
Gaggia Syncrony Logic Part Diagram PDF
8 pages
Chomsky - Studies On Semantics in Generative Grammar
100% (2)
Chomsky - Studies On Semantics in Generative Grammar
103 pages
Elektrikal LT4
No ratings yet
Elektrikal LT4
2 pages
GATE EService ID Application Process
No ratings yet
GATE EService ID Application Process
2 pages
Probability Mass Function Analysis
No ratings yet
Probability Mass Function Analysis
3 pages
New Paris Metro Map for Tourists
No ratings yet
New Paris Metro Map for Tourists
1 page
3 Social Media 3
No ratings yet
3 Social Media 3
2 pages
Encrypted Text Analysis
No ratings yet
Encrypted Text Analysis
6 pages
Work Procedure: Ukur in Kuching Sarawak Polytechnique by My Group and I (Group 2)
No ratings yet
Work Procedure: Ukur in Kuching Sarawak Polytechnique by My Group and I (Group 2)
3 pages
Biology Cristmas Term Mock Exam Grade 10
No ratings yet
Biology Cristmas Term Mock Exam Grade 10
9 pages
Clinical Cases in Augmentative and Alternative Communication, 1st Edition Full Text PDF
100% (19)
Clinical Cases in Augmentative and Alternative Communication, 1st Edition Full Text PDF
14 pages
S.L. Arora Class 11 Vol-1
50% (4)
S.L. Arora Class 11 Vol-1
778 pages
Demo English 9 Earth
No ratings yet
Demo English 9 Earth
3 pages
Talos: Technical Specifications
No ratings yet
Talos: Technical Specifications
2 pages
Silangan Elementary School Grade 1 Class Schedules
No ratings yet
Silangan Elementary School Grade 1 Class Schedules
19 pages
The Effect of Flash Sale, Shopee Live, and Twin Date Promo On Shopee Users' Impulse Buying Behavior
No ratings yet
The Effect of Flash Sale, Shopee Live, and Twin Date Promo On Shopee Users' Impulse Buying Behavior
5 pages
Jawara 01 10
No ratings yet
Jawara 01 10
10 pages
CHEM11-Differences-between-Inorganic-Compounds-and-Organic-Compounds - GROUP 9
No ratings yet
CHEM11-Differences-between-Inorganic-Compounds-and-Organic-Compounds - GROUP 9
8 pages
Math Grade 10 CG Outline 1
No ratings yet
Math Grade 10 CG Outline 1
9 pages
Unsighted
No ratings yet
Unsighted
9 pages
Wipro Fundamental Analysis 2025
No ratings yet
Wipro Fundamental Analysis 2025
17 pages
Hemrayev Maksat. Technology of Obtaining Fire Resistant Materials
No ratings yet
Hemrayev Maksat. Technology of Obtaining Fire Resistant Materials
5 pages
Sop RWTH Production Systems
No ratings yet
Sop RWTH Production Systems
2 pages
Sociology of Social Stratification
No ratings yet
Sociology of Social Stratification
8 pages
Adlerian Therapy
No ratings yet
Adlerian Therapy
7 pages
Kindergarten Rhyming Homework Help
100% (1)
Kindergarten Rhyming Homework Help
8 pages
Literacy Exercise (Student)
No ratings yet
Literacy Exercise (Student)
4 pages
Health Amp Happiness Private Limited,: Grand Total
No ratings yet
Health Amp Happiness Private Limited,: Grand Total
1 page

PCA Scatter Plot Analysis in Python

Uploaded by

PCA Scatter Plot Analysis in Python

Uploaded by

# Import necessary libraries

Description: Pandas is a popular Python library for data manipulation and

Description: This is part of the scikit-learn library (sklearn) and provides

Description: Seaborn is a data visualization library based on Matplotlib. It

a)Import necessary libraries:

b)Read the data from an Excel file using Pandas:

raw_data = pd.read_excel("C:/Users/Bobby/Documents/Food and

d)Extract column names and a subset of rows:

data = dict(zip(X, y))

f)Create an empty list to store dictionaries and convert rows to dictionaries:

g)Create a list of dictionaries and check for missing values:

h)Define a subset of columns for analysis:

subset_columns = [list of column names]

[Link](raw_data['serving_size'], raw_data['calories'], cmap='inferno',

j)Calculate the correlation matrix and perform PCA:

k)Create a scatter plot of PCA result:

l)Perform K-Means clustering and create a scatter plot of clusters:

n_clusters = KMeans(n_clusters=50, n_init="auto", algorithm='lloyd',

m)Perform bivariate analysis using a histogram:

[Link](filled_values, x='serving_size', y='calories', stat="count",

You might also like