Open navigation menu

Scribd

0% found this document useful (0 votes)

4 views8 pages

A.I Code

The document outlines a data analysis process for a dataset related to skilled nursing facilities, including data cleaning, handling missing values, and exploratory data analysis. Key steps include dropping duplicate columns, imputing missing numerical data, and visualizing distributions and correlations using various plots. The analysis also involves standardizing numerical data and performing Principal Component Analysis (PCA) to understand the variance in the dataset.

Uploaded by

alexandrapowell8080

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views8 pages

A.I Code

The document outlines a data analysis process for a dataset related to skilled nursing facilities, including data cleaning, handling missing values, and exploratory data analysis. Key steps include dropping duplicate columns, imputing missing numerical data, and visualizing distributions and correlations using various plots. The analysis also involves standardizing numerical data and performing Principal Component Analysis (PCA) to understand the variance in the dataset.

Uploaded by

alexandrapowell8080

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 8

# Import necessary libraries

import pandas as pd

import numpy as np

import seaborn as sns

import matplotlib.pyplot as plt

from sklearn.impute import SimpleImputer

from sklearn.preprocessing import StandardScaler

from sklearn.decomposition import PCA

# load the dataset

df = pd.read_excel('/content/Skilled nursing facilities dataset.xlsx', skiprows=1)

# Display the first few rows of the dataframe to understand its structure and provide a

summary of the dataset including data types and missing values

df.info(),df.head()

# 1. Descriptive Statistics of the data

descriptive_statistics = df.describe(include='all', datetime_is_numeric=True)

# 2. Finding out missing values if any exist

missing_values = df.isnull().sum()

descriptive_statistics,missing_values
# Dropping duplicate columns from the dataset

duplicate_columns = ['Total Days Title XVIII','Total Days Title XIX', 'Total Days Other',

'Total Days Total','Number of Beds','Total Bed Days Available','Total Discharges Title

XVIII','Total Discharges Title XIX','Total Discharges Title Other','Total Discharges Total'] #

Replace with actual column names

data_cleaned = df.drop(columns=duplicate_columns)

data_cleaned

# Handling Missing Values

# Given the varied nature of missing data across columns, we'll proceed with a simple

imputation for numerical columns and exclude categorical ones from this step.

numerical_data = data_cleaned.select_dtypes(include=[np.number])

imputer = SimpleImputer(strategy='mean')

numerical_data_imputed = pd.DataFrame(imputer.fit_transform(numerical_data),

columns=numerical_data.columns)

# Proceeding with handling missing values in categorical columns, as they are just 1.5% of

the total records in the dataset we won't lose much information. so, we're deleting null values.

data_cleaned = data_cleaned.dropna(subset=['Street Address', 'Fiscal Year Begin Date',

'Fiscal Year End Date','Rural versus Urban'])

data_cleaned.info()

# Defining categorical data

categorical_data = data_cleaned.select_dtypes(include=['object', 'category'])

categorical_data.info()

# Merging categorical data with numerical data imputed and naming it as data_combined.

data_combined = pd.merge(categorical_data,numerical_data_imputed, left_index=True,

right_index=True, how='inner')

data_combined.info()

# There are some identifiers in the data, let's ignore those columns and use relevant columns

for the analysis by defining this data as snf_data.

snf_data = data_combined[['Facility Name','Street Address','City','State Code','Zip

Code','County','Rural versus Urban','SNF Average Length of Stay Title XVIII','SNF Average

Length of Stay Title XIX','SNF Average Length of Stay Total','SNF Admissions Title

XVIII','SNF Admissions Title XIX','SNF Admissions Other','SNF Admissions Total','SNF

Days Title XVIII','SNF Days Title XIX','SNF Days Other','SNF Days Total','SNF Number of

Beds','SNF Bed Days Available','SNF Discharges Title XVIII','SNF Discharges Title

XIX','SNF Discharges Title Other','SNF Discharges Total']]

snf_data.info()

snf_data.describe()

snf_data.hist(figsize=(20, 15), bins=20)

plt.tight_layout() # Adjusts subplots to fit into the figure area.

plt.show()

# Define categories and values to create piechart

categories = ['Rural', 'Urban']

values = [10952, 3882]

# Create piechart to show the percentage of SNFs in Rural versus Urban Areas

explode = (0, 0.1)

colors = ['limegreen', 'lightblue']

plt.figure(figsize=(8, 8))

plt.pie(values, labels=categories, autopct='%1.1f%%', startangle=90, explode=explode,

colors=colors)

plt.title('SNFs in Rural versus Urban Areas')

plt.show()

# Categorical Data Exploration: Focusing on 'State Code' and 'Rural versus Urban' variables

state_code_distribution = snf_data['State Code'].value_counts()

rural_urban_distribution = snf_data['Rural versus Urban'].value_counts()

state_code_distribution, rural_urban_distribution

import plotly.express as px

snf_counts_by_state = data_combined['State Code'].value_counts().reset_index()

snf_counts_by_state.columns = ['State Code', 'Count']

# 'snf_counts_by_state' has 'State Code' and 'Count'

fig = px.bar(snf_counts_by_state, x='State Code', y='Count', text='Count')

fig.update_traces(texttemplate='%{text}', textposition='outside')

fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')

fig.show()

# Correlation Analysis of the numerical data

correlations = snf_data.corr(numeric_only=True)

# Plotting the correlation matrix

plt.figure(figsize=(12, 12))

sns.heatmap(correlations, annot=True, fmt=".2f")

plt.title('Correlation Matrix')

plt.show()

# Exploring distributions of selected key variables using box plots

columns_to_plot = ['SNF Average Length of Stay Total', 'SNF Admissions Total','SNF

Discharges Total','SNF Number of Beds','SNF Days Total']

for column in columns_to_plot:

plt.figure() # Creates a new figure for each plot

sns.boxplot(y=snf_data[column])

plt.title(f'Box plot of {column}')

plt.ylabel('Value')
plt.show()

#Removing Outliers

def remove_outliers(snf_data, column):

Q1 = snf_data[column].quantile(0.25)

Q3 = snf_data[column].quantile(0.75)

IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR

upper_bound = Q3 + 1.5 * IQR

return snf_data[(snf_data[column] >= lower_bound) & (snf_data[column] <=

upper_bound)]

# Removing Outliers

columns_to_plot = ['SNF Average Length of Stay Total', 'SNF Admissions Total','SNF

Discharges Total','SNF Number of Beds','SNF Days Total']

for column in columns_to_plot:

snf_data = remove_outliers(snf_data, column)

plt.figure()

sns.boxplot(y=snf_data[column])

plt.title(f'Box plot of {column} (outliers removed)')

plt.show()

from sklearn.preprocessing import StandardScaler

from sklearn.decomposition import PCA

# Identifying numerical columns (excluding identifiers like Provider CCN)

numerical_cols =

numerical_data_imputed.select_dtypes(include=['number']).columns.drop(['rpt_rec_num',

'Provider CCN'])

numerical_data = numerical_data_imputed[numerical_cols]

# Standardizing the numerical data

scaler = StandardScaler()

standardized_data = scaler.fit_transform(numerical_data)

# Performing PCA

pca = PCA()

pca.fit(standardized_data)

# Getting the variance ratios of the principal components

explained_variance_ratio = pca.explained_variance_ratio_

explained_variance_ratio

# Extracting the component loadings (i.e., the correlation between the original variables and

the components)
loadings = pd.DataFrame(pca.components_.T, columns=[f'PC{i}' for i in range(1,

pca.components_.shape[1] + 1)], index=numerical_cols)

# Displaying the loadings for the first few principal components

loadings

# Visualizing the loadings of the first two principal components

plt.figure(figsize=(10, 6))

sns.heatmap(loadings[['PC1', 'PC2']])

plt.title('Loadings of PC1 and PC2')

plt.xlabel('Principal Components')

plt.ylabel('Original Variables')

plt.show()

You might also like

Absenteeism Module
No ratings yet
Absenteeism Module
2 pages
Health Risk Prediction
No ratings yet
Health Risk Prediction
80 pages
Ba Cia 1
No ratings yet
Ba Cia 1
22 pages
Heart Disease Diagnosis Using Machine Learning
No ratings yet
Heart Disease Diagnosis Using Machine Learning
26 pages
Data Analytics7
No ratings yet
Data Analytics7
5 pages
ML Lab
No ratings yet
ML Lab
14 pages
Data Analyzer
No ratings yet
Data Analyzer
10 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Data - Analytics Lab - Manual JNTUH R22 Regulation
No ratings yet
Data - Analytics Lab - Manual JNTUH R22 Regulation
26 pages
Diabetes Prediction with KNN Model
No ratings yet
Diabetes Prediction with KNN Model
12 pages
Healthcare-Project-Simplilearn - Week3
No ratings yet
Healthcare-Project-Simplilearn - Week3
7 pages
DA Lab
No ratings yet
DA Lab
27 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Data Perparation Penting
No ratings yet
Data Perparation Penting
12 pages
DWM Journal
No ratings yet
DWM Journal
104 pages
Advance Python
No ratings yet
Advance Python
5 pages
Week1 Code Corrected
No ratings yet
Week1 Code Corrected
2 pages
Data Preprocessing in Python Guide
No ratings yet
Data Preprocessing in Python Guide
22 pages
Program 1
No ratings yet
Program 1
1 page
Exp 1 A
No ratings yet
Exp 1 A
5 pages
Healthcare Tutorial
No ratings yet
Healthcare Tutorial
12 pages
C2M2 - Assignment: 1 Risk Models Using Tree-Based Models
100% (1)
C2M2 - Assignment: 1 Risk Models Using Tree-Based Models
38 pages
Data Science Fundamentals
No ratings yet
Data Science Fundamentals
22 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
Healthcare Data Exploration Report Word File
No ratings yet
Healthcare Data Exploration Report Word File
9 pages
Exp 2
No ratings yet
Exp 2
6 pages
Transposing DataFrames in Pandas
No ratings yet
Transposing DataFrames in Pandas
14 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
24 pages
DA Lab Manual r22
No ratings yet
DA Lab Manual r22
31 pages
ML Observation
No ratings yet
ML Observation
29 pages
DataPreparation - Outlier - Treatment ASSIGEMENT ANSWER
No ratings yet
DataPreparation - Outlier - Treatment ASSIGEMENT ANSWER
4 pages
Unit1 ML Programs
No ratings yet
Unit1 ML Programs
5 pages
Stationarity Analysis of Time Series Data
No ratings yet
Stationarity Analysis of Time Series Data
7 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
'Name-Piyush Tiwari''/n' 'Section - C'/N' 'Roll - No-2001610100142'
No ratings yet
'Name-Piyush Tiwari''/n' 'Section - C'/N' 'Roll - No-2001610100142'
28 pages
Ai Record Programs
No ratings yet
Ai Record Programs
34 pages
Statistics IMP Questions and Answers
No ratings yet
Statistics IMP Questions and Answers
23 pages
DM Record Final
No ratings yet
DM Record Final
68 pages
Edp 3
No ratings yet
Edp 3
16 pages
ML Lab - Exp1-10
No ratings yet
ML Lab - Exp1-10
4 pages
Experiment 5
No ratings yet
Experiment 5
9 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
ML Proj Diabetes
No ratings yet
ML Proj Diabetes
51 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
DSBDA4
No ratings yet
DSBDA4
6 pages
02 B Regression Healthcare
No ratings yet
02 B Regression Healthcare
5 pages
02 B Regression Healthcare
No ratings yet
02 B Regression Healthcare
5 pages
Data Preprocessing in Python Guide
No ratings yet
Data Preprocessing in Python Guide
9 pages
Final Report Non Comp
No ratings yet
Final Report Non Comp
14 pages
Anemia Data Analysis with Python
No ratings yet
Anemia Data Analysis with Python
33 pages
Data Analysis
No ratings yet
Data Analysis
22 pages
COMP5318
No ratings yet
COMP5318
42 pages
Prg7a - Jupyter Notebook
No ratings yet
Prg7a - Jupyter Notebook
12 pages
Practical 4
No ratings yet
Practical 4
3 pages
Haberman Cancer Survival Analysis Guide
No ratings yet
Haberman Cancer Survival Analysis Guide
1 page
Health Care Project
No ratings yet
Health Care Project
14 pages
DATA4800 T2 2025 Assessment 03 Outline
No ratings yet
DATA4800 T2 2025 Assessment 03 Outline
17 pages
Proper Noun Vs Common Noun Confusion FULL
No ratings yet
Proper Noun Vs Common Noun Confusion FULL
3 pages
NNNN
No ratings yet
NNNN
41 pages
JAMES CV - Doc69011a077a90854134
No ratings yet
JAMES CV - Doc69011a077a90854134
4 pages
Group10 Excel Narwhal MB8019 F25
No ratings yet
Group10 Excel Narwhal MB8019 F25
26 pages
Direct Sales Agent Role
No ratings yet
Direct Sales Agent Role
2 pages
2023fall Project2 Updated
No ratings yet
2023fall Project2 Updated
1 page
02 Full
No ratings yet
02 Full
30 pages
Brian AugustReport
No ratings yet
Brian AugustReport
10 pages
August Report
No ratings yet
August Report
11 pages
Results Final
No ratings yet
Results Final
16 pages
Civil Engineering Surveying II
No ratings yet
Civil Engineering Surveying II
52 pages
Tutorial 5
No ratings yet
Tutorial 5
2 pages
Deckel FPXNC Dialog 4 Software Update Manual Rklopp
100% (1)
Deckel FPXNC Dialog 4 Software Update Manual Rklopp
116 pages
Combinatorial Designs: BIBD Overview
No ratings yet
Combinatorial Designs: BIBD Overview
20 pages
24-25 S3 Mathematics 1st UT Queston Paper
No ratings yet
24-25 S3 Mathematics 1st UT Queston Paper
6 pages
Insert Shape Selection Guide
No ratings yet
Insert Shape Selection Guide
17 pages
Basic Statistics Survival Guide
No ratings yet
Basic Statistics Survival Guide
101 pages
Probability & Statistics Solutions
No ratings yet
Probability & Statistics Solutions
17 pages
Dynamic Response of Ship Hull Due To Slamming
No ratings yet
Dynamic Response of Ship Hull Due To Slamming
116 pages
Missing Data Imputation Techniques
No ratings yet
Missing Data Imputation Techniques
23 pages
Load Flow Analysis with MATLAB
No ratings yet
Load Flow Analysis with MATLAB
5 pages
Graph Theory Assignment 1 Solutions
No ratings yet
Graph Theory Assignment 1 Solutions
3 pages
Notice For EO 5th Sem and 7th Sem
No ratings yet
Notice For EO 5th Sem and 7th Sem
4 pages
Cambridge Final Examination Timetable India March 2018 Series
No ratings yet
Cambridge Final Examination Timetable India March 2018 Series
10 pages
Vectors in Engineering: Module 14
No ratings yet
Vectors in Engineering: Module 14
3 pages
Arch Dam Design: Valley Shape Factor
No ratings yet
Arch Dam Design: Valley Shape Factor
4 pages
Hydrocyclone Flow and Water Split Analysis
No ratings yet
Hydrocyclone Flow and Water Split Analysis
28 pages
Class XI Mathematics Final Exam
No ratings yet
Class XI Mathematics Final Exam
3 pages
P6Maths Week 27
No ratings yet
P6Maths Week 27
5 pages
Tugas Critical Appraisal
No ratings yet
Tugas Critical Appraisal
4 pages
Statistics For Business Decision Making and Analysis 3rd Edition by Robert
No ratings yet
Statistics For Business Decision Making and Analysis 3rd Edition by Robert
412 pages
The Structural Making of The Eden Project Domes
No ratings yet
The Structural Making of The Eden Project Domes
22 pages
LDPC Codes via Frequency Hopping
No ratings yet
LDPC Codes via Frequency Hopping
4 pages
Mth744u Exam 2013
No ratings yet
Mth744u Exam 2013
3 pages
Computer Vision 1 Course Overview
No ratings yet
Computer Vision 1 Course Overview
16 pages
Al Lab Manual Final
No ratings yet
Al Lab Manual Final
47 pages
Excel Tips & Tricks: Formulas
No ratings yet
Excel Tips & Tricks: Formulas
3 pages
Scented Candle From Used Oil Trial 3
No ratings yet
Scented Candle From Used Oil Trial 3
8 pages
Excel Advanced Level Geography
50% (6)
Excel Advanced Level Geography
87 pages
Backpropagation A Peek Into The Mathematics of Optimization
No ratings yet
Backpropagation A Peek Into The Mathematics of Optimization
4 pages