Code

The document outlines a data analysis workflow using Python, focusing on a dataset that includes economic indicators. It includes steps for data standardization, K-Means clustering, feature importance analysis using Random Forest, and various visualizations such as correlation matrices and scatterplots. The analysis aims to explore relationships between personal consumption expenditure, unemployment, and other economic metrics.

Uploaded by

Ramesh Vankara

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views2 pages

Code

Uploaded by

Ramesh Vankara

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

# Import necessary libraries

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import StandardScaler
import warnings

warnings.filterwarnings("ignore", category=FutureWarning)

# Sample Data (Replace with your dataset)

data = {
'date': pd.date_range(start='1967-07-31', periods=10, freq='M'),
'pce': np.random.rand(10) * 1000, # Personal Consumption Expenditure
'pop': np.random.randint(100000, 500000, 10), # Population
'psavert': np.random.rand(10) * 10, # Personal Saving Rate
'uempmed': np.random.rand(10) * 5, # Median Duration of Unemployment
'unemploy': np.random.randint(2000, 5000, 10), # Unemployed people
'contributors': np.random.randint(50, 500, 10), # Contributor Activity
'article_density': np.random.rand(10) * 100, # Number of articles per capita
'gdp': np.random.randint(50000, 200000, 10) # GDP
}
df = pd.DataFrame(data)

# Standardizing numerical columns

scaler = StandardScaler()
df[['pce', 'pop', 'psavert', 'uempmed', 'unemploy', 'contributors',
'article_density', 'gdp']] = \
scaler.fit_transform(df[['pce', 'pop', 'psavert', 'uempmed', 'unemploy',
'contributors', 'article_density', 'gdp']])

# DISPLAY TABLE DATA FIRST

# Display first few rows of the dataset
print("🔹 First 5 Rows of the Dataset:")
print(df.head())

# Show summary statistics of numerical columns

print("\n🔹 Summary Statistics:")
print(df.describe())

# Display correlation matrix as a table (useful before heatmap)

print("\n🔹 Correlation Matrix Table:")
print(df.drop(columns=['date']).corr())

# 1. K-Means Clustering Plot

kmeans = KMeans(n_clusters=3, random_state=42)
df['cluster'] = kmeans.fit_predict(df[['pce', 'pop', 'psavert', 'uempmed',
'unemploy']])
plt.figure(figsize=(8, 6))
sns.scatterplot(x='pce', y='unemploy', hue='cluster', data=df, palette='Set2',
s=100)
plt.title('K-Means Clustering: PCE vs Unemployment')
plt.show()

# 2. Feature Importance (Random Forest)

X = df[['pce', 'pop', 'psavert', 'uempmed']]
y = df['unemploy']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train, y_train)
importance = rf_model.feature_importances_
plt.figure(figsize=(8, 6))
sns.barplot(x=importance, y=X.columns, color='skyblue')
plt.title('Feature Importance (Random Forest)')
plt.show()

# 3. Correlation Matrix Heatmap

plt.figure(figsize=(8, 6))
sns.heatmap(df.drop(columns=['date', 'cluster']).corr(), annot=True,
cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title('Correlation Matrix Heatmap')
plt.show()

# 4. Box-and-Whisker Plot for Engagement Metrics

plt.figure(figsize=(8, 6))
sns.boxplot(data=df[['pce', 'pop', 'psavert', 'uempmed', 'unemploy']],
palette="Set3")
plt.title('Box-and-Whisker Plot for Engagement Metrics')
plt.xticks(rotation=45)
plt.show()

# 5. Histogram of Contributor Activity

plt.figure(figsize=(8, 6))
sns.histplot(df['contributors'], bins=10, kde=True, color='purple')
plt.title('Histogram of Contributor Activity')
plt.xlabel('Contributor Activity')
plt.ylabel('Frequency')
plt.show()

# 6. Scatterplot: Article Density vs. GDP

plt.figure(figsize=(8, 6))
sns.scatterplot(x='article_density', y='gdp', data=df, color='red')
plt.title('Scatterplot: Article Density vs. GDP')
plt.xlabel('Article Density')
plt.ylabel('GDP')
plt.show()

7 A & B
No ratings yet
7 A & B
2 pages
Reading Data: #Importing Required Libraries
No ratings yet
Reading Data: #Importing Required Libraries
16 pages
DSBDA Prac4 2
No ratings yet
DSBDA Prac4 2
1 page
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
Health Risk Prediction
No ratings yet
Health Risk Prediction
80 pages
Final-12-Lab Programs
No ratings yet
Final-12-Lab Programs
30 pages
ML Complete Notes Hridoy
No ratings yet
ML Complete Notes Hridoy
5 pages
Practical 5
No ratings yet
Practical 5
6 pages
Kritika Sejwal 24MCI10023 ML Lab Project Report
No ratings yet
Kritika Sejwal 24MCI10023 ML Lab Project Report
10 pages
Ai 28-01-25
No ratings yet
Ai 28-01-25
18 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Week 01.a
No ratings yet
Week 01.a
4 pages
Project Intern - Jupyter Notebook
No ratings yet
Project Intern - Jupyter Notebook
16 pages
Feature Engineering: Scaling Techniques
No ratings yet
Feature Engineering: Scaling Techniques
13 pages
Random Forest Classifier on Banking Dataset
No ratings yet
Random Forest Classifier on Banking Dataset
7 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
Untitled Document
No ratings yet
Untitled Document
6 pages
State Wise Health Income Clustering 18th December 2021 PDF
100% (2)
State Wise Health Income Clustering 18th December 2021 PDF
29 pages
Samplecode (HDPS)
No ratings yet
Samplecode (HDPS)
29 pages
Da Rec
No ratings yet
Da Rec
29 pages
DVT Exp 3
No ratings yet
DVT Exp 3
1 page
Data Visualization & Preprocessing Guide
No ratings yet
Data Visualization & Preprocessing Guide
18 pages
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
No ratings yet
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
40 pages
Kmeans
No ratings yet
Kmeans
4 pages
AML Code For m2
No ratings yet
AML Code For m2
7 pages
Heart Disease Prediction - Jupyter Notebook
100% (1)
Heart Disease Prediction - Jupyter Notebook
9 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Healthcare-Project-Simplilearn - Week3
No ratings yet
Healthcare-Project-Simplilearn - Week3
7 pages
Heart Disease Diagnosis Using Machine Learning
No ratings yet
Heart Disease Diagnosis Using Machine Learning
26 pages
Data Preprocessing Techniques Guide
No ratings yet
Data Preprocessing Techniques Guide
23 pages
Building Logistic Regression Model in Python
No ratings yet
Building Logistic Regression Model in Python
24 pages
ML Lab Codes
No ratings yet
ML Lab Codes
14 pages
ML Lab
No ratings yet
ML Lab
10 pages
1
No ratings yet
1
13 pages
Advanced Machine Learning Course Guide
No ratings yet
Advanced Machine Learning Course Guide
36 pages
Regression Analysis Cheat Sheet
No ratings yet
Regression Analysis Cheat Sheet
9 pages
DS2 C5 S1 Preparing Data Machine Learning Concept Codebook
No ratings yet
DS2 C5 S1 Preparing Data Machine Learning Concept Codebook
1 page
Income (K-Means Clustering On A Sample Data Set)
No ratings yet
Income (K-Means Clustering On A Sample Data Set)
3 pages
Data Mining - Project
100% (2)
Data Mining - Project
11 pages
Healthcare Insurance Prediction Main
No ratings yet
Healthcare Insurance Prediction Main
74 pages
Datascience 2 PDF
No ratings yet
Datascience 2 PDF
24 pages
Loan Prediction
No ratings yet
Loan Prediction
26 pages
Loan Default Prediction System 1753830667
No ratings yet
Loan Default Prediction System 1753830667
11 pages
Experiment No 11
No ratings yet
Experiment No 11
19 pages
Group Work Assignment Supervised and Unsupervised Learning
No ratings yet
Group Work Assignment Supervised and Unsupervised Learning
10 pages
Week 1 Get Familier With Jupyter Notebook
No ratings yet
Week 1 Get Familier With Jupyter Notebook
4 pages
Da Lab Mannual
No ratings yet
Da Lab Mannual
25 pages
SOLUTION ONLY CODE DWDM - Lab - All
No ratings yet
SOLUTION ONLY CODE DWDM - Lab - All
8 pages
Data Mining Techniques for CKD Analysis
No ratings yet
Data Mining Techniques for CKD Analysis
12 pages
PROJECTS
No ratings yet
PROJECTS
6 pages
DWM Journal
No ratings yet
DWM Journal
104 pages
Certificate
No ratings yet
Certificate
33 pages
ML - Lab Manual
No ratings yet
ML - Lab Manual
54 pages
Experiment-3 ML Lab
No ratings yet
Experiment-3 ML Lab
20 pages
Data Science with Python Tools
No ratings yet
Data Science with Python Tools
1 page
DWDM Lab Report
No ratings yet
DWDM Lab Report
26 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
Manual de Usuario - MAX T115+ - v.1
No ratings yet
Manual de Usuario - MAX T115+ - v.1
22 pages
Pediatric Bleeding Questionnaire Scoring Key
No ratings yet
Pediatric Bleeding Questionnaire Scoring Key
1 page
Rural Bank of Caloocan Case Digest
No ratings yet
Rural Bank of Caloocan Case Digest
2 pages
Curriculum Vitae
No ratings yet
Curriculum Vitae
2 pages
Extra Work - Jennifer Marina Chavez Carcamo
No ratings yet
Extra Work - Jennifer Marina Chavez Carcamo
5 pages
From Natural Language To Simulations Applying AI To Automate Simulation Modelling of Logistics Systems
No ratings yet
From Natural Language To Simulations Applying AI To Automate Simulation Modelling of Logistics Systems
25 pages
Journalizing
No ratings yet
Journalizing
5 pages
Cartas Magic
No ratings yet
Cartas Magic
18 pages
List With Ols Filenames PDF
No ratings yet
List With Ols Filenames PDF
247 pages
Resource Governor
No ratings yet
Resource Governor
70 pages
Manual Xentaur XPDM
No ratings yet
Manual Xentaur XPDM
26 pages
Valmont - Galvanizing Information
No ratings yet
Valmont - Galvanizing Information
107 pages
Solution Manual For Human Resource Management 3rd Edition Stewart and Brown 1118582802 9781118582800
No ratings yet
Solution Manual For Human Resource Management 3rd Edition Stewart and Brown 1118582802 9781118582800
20 pages
Meditech Expanse - Student Pre-Training Package
No ratings yet
Meditech Expanse - Student Pre-Training Package
4 pages
Digital Dimensions Exploring AR and VR
No ratings yet
Digital Dimensions Exploring AR and VR
8 pages
LiDAR Surveys and Flood Mapping of Bauang River PDF
100% (1)
LiDAR Surveys and Flood Mapping of Bauang River PDF
308 pages
ADMN 2506A Business Statistics Midterm
No ratings yet
ADMN 2506A Business Statistics Midterm
5 pages
McAfee ePO Backup
No ratings yet
McAfee ePO Backup
4 pages
The Lived Experiences of Learners From Broken Home With Insignificant Progress Amidst Pandemic Basis in Designing A Remediation Plan
No ratings yet
The Lived Experiences of Learners From Broken Home With Insignificant Progress Amidst Pandemic Basis in Designing A Remediation Plan
12 pages
AFMS Overview of Army Structure and Capabilities 2012
No ratings yet
AFMS Overview of Army Structure and Capabilities 2012
39 pages
Aptitude Test Sample Questions
100% (1)
Aptitude Test Sample Questions
4 pages
Chemistry: Fitzroy's Storm Glass
No ratings yet
Chemistry: Fitzroy's Storm Glass
29 pages
Bipolar Worksheet - 19 - Problem Solving Sheet
No ratings yet
Bipolar Worksheet - 19 - Problem Solving Sheet
2 pages
(Ebook PDF) Building Construction Handbook 11th Edition PDF Download
100% (3)
(Ebook PDF) Building Construction Handbook 11th Edition PDF Download
53 pages
GE 21816 Manual
No ratings yet
GE 21816 Manual
2 pages
Assam Budget 2022-23 Overview
No ratings yet
Assam Budget 2022-23 Overview
10 pages
Advanced Calculus and Complex Analysis Sem
No ratings yet
Advanced Calculus and Complex Analysis Sem
4 pages
Abhiraj Mohan Purandare Challan
No ratings yet
Abhiraj Mohan Purandare Challan
2 pages
Types of Buttons for Garments
No ratings yet
Types of Buttons for Garments
14 pages
ATL001 CTA1 Foundations 01 TASA 2009 and The Code of Professional Conduct
No ratings yet
ATL001 CTA1 Foundations 01 TASA 2009 and The Code of Professional Conduct
21 pages