0% found this document useful (0 votes)

45 views9 pages

Handling Missing Values in Python

The document discusses handling missing values in Python, outlining reasons for missing data and various techniques for addressing it, including deletion and imputation methods. It categorizes missing data into three types: MCAR, MAR, and MNAR, and describes basic and advanced imputation techniques such as K-Nearest Neighbour and Multivariate Imputation by Chained Equations (MICE). Additionally, it notes that some algorithms, like XGBoost and LightGBM, can manage missing values without pre-processing.

Uploaded by

vm9545331377

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

45 views9 pages

Handling Missing Values in Python

Uploaded by

vm9545331377

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Handling Missing Values in Python

Real world data is messy and often contains a lot of missing values. There could be multiple reasons for the missing values but primarily the
reason for missing-ness can be attributed to

Either way we need to address this issue before we proceed with the modelling stuff. It is also important to note that some algorithms
like XGBoost and LightGBM can treat missing data without any pre-processing.

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Reasons for Missing Values
Before we start treating the missing values, it is important to understand the various reasons for the missing-ness in data. Broadly speaking, there
can be three possible reasons:

1. Missing Completely at Random (MCAR)

The missing values on a given variable (Y) are not associated with other variables in a given data set or with the variable (Y) itself. In other
words, there is no particular reason for the missing values.

2. Missing at Random (MAR)

MAR occurs when the missing-ness is not random, but where missing-ness can be fully accounted for by variables where there is complete
information.

3. Missing Not at Random (MNAR)

Missing-ness depends on unobserved data or the value of the missing data itself.
Deletions

Deletion means to delete the missing values from a dataset. This is however not recommended as it might result in loss of information from the
dataset. We should only delete the missing values from a dataset if their proportion is very small. Deletions are further of three types:
Syed Afroz Ali (Data Scientist)
https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Pairwise Deletion
Pairwise Deletion is used when values are missing completely at random i.e. MCAR. During Pairwise deletion, only the missing values are
deleted. All operations in pandas like mean, sum etc. intrinsically skips missing values.

List wise Deletion/ Dropping rows

During List wise deletion, complete rows (which contain the missing values) are deleted. As a result, it is also called Complete Case deletion.
Like Pairwise deletion, list wise deletions are also only used for MCAR values.

#Drop rows which contains any NaN or missing value for Age column
train_1.dropna(subset=['Age'],how='any',inplace=True)
train_1['Age'].isnull().sum()

The Age column doesn't have any missing values. A major disadvantage of List wise deletion is that a major chunk of data and hence a lot of
information is lost. Hence, it is advisable to use it only when the number of missing values is very small.

Dropping complete columns

If a column contains a lot of missing values, say more than 80%, and the feature is not significant, you might want to delete that feature.
However, again, it is not a good methodology to delete data.

Syed Afroz Ali (Data Scientist)

Imputation refers to replacing missing data with substituted values. There are a lot of ways in which the missing values can be imputed
depending upon the nature of the problem and data. Depending upon the nature of the problem, imputation techniques can be broadly they can
be classified as follows:

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Basic Imputation Techniques
 Imputating with a constant value
 Imputation using the statistics (mean, median or most frequent) of each column in which the missing values are located

For this we shall use the The SimpleImputer class from sklearn.
# imputing with a constant
from sklearn.impute import SimpleImputer
train_constant = train.copy()
mean_imputer = SimpleImputer(strategy='constant')
train_constant.iloc[:,:] = mean_imputer.fit_transform(train_constant)
train_constant.isnull().sum()

from sklearn.impute import SimpleImputer

train_most_frequent = train.copy()
#setting strategy to 'mean' to impute by the mean
mean_imputer = SimpleImputer(strategy='most_frequent')#strategy can also be mean or median
train_most_frequent.iloc[:,:] = mean_imputer.fit_transform(train_most_frequent)
train_most_frequent.isnull().sum()

Imputations Techniques for Time Series Problems

Now let's look at ways to impute data in a typical time series problem. Tackling missing values in time Series problem is a bit different. The fillna() method is
used for imputing missing values in such problems.
 Basic Imputation Techniques

 'ffill' or 'pad' - Replace NaN s with last observed value

 'bfill' or 'backfill' - Replace NaN s with next observed value
 Linear interpolation method

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Time Series dataset
The dataset is called Air Quality Data in India (2015 - 2020) Tand it contains air quality data and AQI (Air Quality Index) at hourly and daily
level of various stations across multiple cities in India. The dataset has a lot of missing values and is a classic Time series problem.

city_day['Xylene'][50:64]

city_day.fillna(method='ffill',inplace=True)
city_day['Xylene'][50:65]

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Imputation using Linear Interpolation method
Time series data has a lot of variations against time. Hence, imputing using backfill and forward fill isn't the best possible solution to address the
missing value problem. A more apt alternative would be to use interpolation methods, where the values are filled with incrementing or
decrementing values.

Linear interpolation is an imputation technique that assumes a linear relationship between data points and utilises non-missing values from
adjacent data points to compute a value for a missing data point.

city_day1['Xylene'][50:65]

# Interpolate using the linear method

city_day1.interpolate(limit_direction="both",inplace=True)
city_day1['Xylene'][50:65]

Syed Afroz Ali (Data Scientist)

https://www.kaggle.com/pythonafroz
https://www.linkedin.com/in/syed-afroz-70939914/
Advanced Imputation Techniques
Advanced imputation techniques uses machine learning algorithms to impute the missing values in a dataset unlike the previous techniques
where we used other column values to predict the missing values.

K-Nearest Neighbour Imputation

The KNN-Imputer class provides imputation for filling in missing values using the k-Nearest Neighbours approach. Each missing feature is
imputed using values from n_neighbors nearest neighbour’s that have a value for the feature. The feature of the neighbours are averaged
uniformly or weighted by distance to each neighbour.
train_knn = train.copy(deep=True)
from sklearn.impute import KNNImputer
train_knn = train.copy(deep=True)
knn_imputer = KNNImputer(n_neighbors=2, weights="uniform")
train_knn['Age'] = knn_imputer.fit_transform(train_knn[['Age']])
train_knn['Age'].isnull().sum()

Multivariate feature imputation - Multivariate imputation by chained equations (MICE)

A strategy for imputing missing, values by modelling each feature with missing values, as a function of other features in a round-robin fashion. It
performs multiple regressions over random sample of the data, then takes the average of the multiple regression values and uses that value to
impute the missing value. In sklearn, it is implemented as follows
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
train_mice = train.copy(deep=True)

mice_imputer = IterativeImputer()
train_mice['Age'] = mice_imputer.fit_transform(train_mice[['Age']])
train_mice['Age'].isnull().sum()

Syed Afroz Ali (Data Scientist)

https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn

Syed Afroz Ali (Data Scientist)

The Complete Guide To Data Preprocessing
No ratings yet
The Complete Guide To Data Preprocessing
50 pages
Assessing Feature Importance in Python
No ratings yet
Assessing Feature Importance in Python
30 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
12 pages
PW2 DataCleaning
No ratings yet
PW2 DataCleaning
6 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Exp-12 Iaiml
No ratings yet
Exp-12 Iaiml
13 pages
Dealing With Missing Values
No ratings yet
Dealing With Missing Values
19 pages
Write A Python Program To Explain How Can You Handle Missing Values Using Simpleimputer.
No ratings yet
Write A Python Program To Explain How Can You Handle Missing Values Using Simpleimputer.
9 pages
Missing Data
No ratings yet
Missing Data
14 pages
Data - Preprocessing - 2
No ratings yet
Data - Preprocessing - 2
10 pages
Data Imputation Techniques Guide
No ratings yet
Data Imputation Techniques Guide
6 pages
Handling Missing Data in ML
No ratings yet
Handling Missing Data in ML
8 pages
Lecture 4 New Data Pre Processing
No ratings yet
Lecture 4 New Data Pre Processing
41 pages
Handling Missing Values
No ratings yet
Handling Missing Values
4 pages
Unit 2 Data Preprocessing
No ratings yet
Unit 2 Data Preprocessing
66 pages
Data Cleaning With Python and Pandas
No ratings yet
Data Cleaning With Python and Pandas
49 pages
Missing Data
No ratings yet
Missing Data
25 pages
How To Handle Missing Data in Python. (Explained in 5 Easy Steps)
No ratings yet
How To Handle Missing Data in Python. (Explained in 5 Easy Steps)
10 pages
Missing Data Handling
No ratings yet
Missing Data Handling
19 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
10 pages
Data Cleaning Techniques Guide
No ratings yet
Data Cleaning Techniques Guide
11 pages
Dealing With Missing Data - Jupyter Notebook
No ratings yet
Dealing With Missing Data - Jupyter Notebook
9 pages
Missing Values
No ratings yet
Missing Values
3 pages
Data Analytics Lab: Handling Missing Data
No ratings yet
Data Analytics Lab: Handling Missing Data
47 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
Data Analytics Lab Manual - 250402 - 095326
No ratings yet
Data Analytics Lab Manual - 250402 - 095326
58 pages
1.7-Identify and Handle Missing Values
No ratings yet
1.7-Identify and Handle Missing Values
27 pages
Pandas
No ratings yet
Pandas
4 pages
Chapter 1. Data Preparation
No ratings yet
Chapter 1. Data Preparation
74 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Academic Performance Data Wrangling
No ratings yet
Academic Performance Data Wrangling
9 pages
Data Wrangling and Imputation Techniques
100% (1)
Data Wrangling and Imputation Techniques
41 pages
Data Preprocessing
No ratings yet
Data Preprocessing
56 pages
Unit2 Part2 Da
No ratings yet
Unit2 Part2 Da
45 pages
DWM Exp 7
No ratings yet
DWM Exp 7
4 pages
Slides On DataII
No ratings yet
Slides On DataII
26 pages
Day 19 - Numpy
No ratings yet
Day 19 - Numpy
5 pages
ADS Exp2
No ratings yet
ADS Exp2
4 pages
ISAT 600 Progress Report 2
No ratings yet
ISAT 600 Progress Report 2
6 pages
Pandas: Data Cleaning Essentials
No ratings yet
Pandas: Data Cleaning Essentials
6 pages
IntroToPython Unit 5
No ratings yet
IntroToPython Unit 5
42 pages
Data - Analytics Lab - Manual JNTUH R22 Regulation
No ratings yet
Data - Analytics Lab - Manual JNTUH R22 Regulation
26 pages
Missing Data Values and How To Handle It
No ratings yet
Missing Data Values and How To Handle It
5 pages
Platias2020 Greece
No ratings yet
Platias2020 Greece
10 pages
Lec 4
No ratings yet
Lec 4
9 pages
ET 610 - Data Preprocessing
No ratings yet
ET 610 - Data Preprocessing
41 pages
Lecture 8 Handling Missing Values
No ratings yet
Lecture 8 Handling Missing Values
25 pages
Chapter 3
No ratings yet
Chapter 3
58 pages
CH 02 Data Handling Technique
No ratings yet
CH 02 Data Handling Technique
105 pages
DM Chapter 3 Data Preprocessing
No ratings yet
DM Chapter 3 Data Preprocessing
76 pages
Dataminin Presentation (1) .PPTX - Read-Only
No ratings yet
Dataminin Presentation (1) .PPTX - Read-Only
23 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
10 pages
DA Lab
No ratings yet
DA Lab
27 pages
DADM S5 Imputation of Missing Data
No ratings yet
DADM S5 Imputation of Missing Data
15 pages
Data Cleaning - Project Work
No ratings yet
Data Cleaning - Project Work
10 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
2 - Machine Learning - 130824
No ratings yet
2 - Machine Learning - 130824
81 pages
SVD-Based Missing Data Imputation
No ratings yet
SVD-Based Missing Data Imputation
6 pages
AI Content Automation for CAD Files
No ratings yet
AI Content Automation for CAD Files
2 pages
Company Details PUNE
No ratings yet
Company Details PUNE
443 pages
TYPES OF Text Processing Chunks Techniques Best Solution
No ratings yet
TYPES OF Text Processing Chunks Techniques Best Solution
5 pages
How AI Models Learn: A Step-by-Step Guide
No ratings yet
How AI Models Learn: A Step-by-Step Guide
13 pages
IOT Workshop
No ratings yet
IOT Workshop
25 pages
Business & IT Graduate Resume
No ratings yet
Business & IT Graduate Resume
1 page
Scholar Advacned Higher Maths Unit 1
No ratings yet
Scholar Advacned Higher Maths Unit 1
274 pages
Mcafee Agent 5.7.x Product Guide
No ratings yet
Mcafee Agent 5.7.x Product Guide
75 pages
Chapter-10 - String Manipulation
No ratings yet
Chapter-10 - String Manipulation
35 pages
Chapter 2 - Introduction To Data Science
No ratings yet
Chapter 2 - Introduction To Data Science
58 pages
Musculoskeletal MRI Structured Evaluation How To Practically Fill The Reporting Checklist Ebook and TestBank Bundle Verified PDF
No ratings yet
Musculoskeletal MRI Structured Evaluation How To Practically Fill The Reporting Checklist Ebook and TestBank Bundle Verified PDF
402 pages
Manual Diesel DZ7187 DZ7188
No ratings yet
Manual Diesel DZ7187 DZ7188
18 pages
I/O Data Mapping Configuration For Moxa Mgate 5105-Mb-Eip
No ratings yet
I/O Data Mapping Configuration For Moxa Mgate 5105-Mb-Eip
8 pages
Deep Learning With Long Short-Term Memory Networks and Random Forests For Demand Forecasting in Multi-Channel Retail
No ratings yet
Deep Learning With Long Short-Term Memory Networks and Random Forests For Demand Forecasting in Multi-Channel Retail
17 pages
Topic-1 (Advanced Web Designing)
No ratings yet
Topic-1 (Advanced Web Designing)
29 pages
Si5351A VFO Kit for DSB Transceivers
No ratings yet
Si5351A VFO Kit for DSB Transceivers
2 pages
SOLID The Software Design and Architecture Handbook Khalil Stemmler Download
No ratings yet
SOLID The Software Design and Architecture Handbook Khalil Stemmler Download
49 pages
02 - Key Characteristics of Distributed Systems - Grokking The System Design Interview
No ratings yet
02 - Key Characteristics of Distributed Systems - Grokking The System Design Interview
6 pages
Free Web Penetration Testing Course
No ratings yet
Free Web Penetration Testing Course
5 pages
DSS2020-Online Media Coverage, Consumer Engagement and Movie Sales - A PVAR Approach
No ratings yet
DSS2020-Online Media Coverage, Consumer Engagement and Movie Sales - A PVAR Approach
11 pages
Chapter 4 - Objects and Classes
No ratings yet
Chapter 4 - Objects and Classes
31 pages
Linux Fundamentals Overview
No ratings yet
Linux Fundamentals Overview
11 pages
Lockout/Tagout Safety Essentials
100% (2)
Lockout/Tagout Safety Essentials
2 pages
Chapter 5
No ratings yet
Chapter 5
20 pages
ABAP Programming for Business Reports
No ratings yet
ABAP Programming for Business Reports
31 pages
A Marketer's Guide To Digital A - Shailin Dhar
No ratings yet
A Marketer's Guide To Digital A - Shailin Dhar
217 pages
Shoolini University Deep Learning Exam
No ratings yet
Shoolini University Deep Learning Exam
3 pages
Scanner Compare Sheet
No ratings yet
Scanner Compare Sheet
3 pages
Touchless Touch Screen Technology
No ratings yet
Touchless Touch Screen Technology
15 pages
Beginner's Guide: Teaching Kids Coding
No ratings yet
Beginner's Guide: Teaching Kids Coding
15 pages
Activity 3.5.2: Subnetting Scenario 1: Topology Diagram
No ratings yet
Activity 3.5.2: Subnetting Scenario 1: Topology Diagram
4 pages
JDBC Interview Questions With Answers PDF
No ratings yet
JDBC Interview Questions With Answers PDF
8 pages
Push Notification Insights 2023
No ratings yet
Push Notification Insights 2023
29 pages
Set. No - 2 P18PECS031-Data Preparation & Analysis - PH.D.
No ratings yet
Set. No - 2 P18PECS031-Data Preparation & Analysis - PH.D.
17 pages

Handling Missing Values in Python

Uploaded by

Handling Missing Values in Python

Uploaded by

Handling Missing Values in Python

Syed Afroz Ali (Data Scientist)

1. Missing Completely at Random (MCAR)

2. Missing at Random (MAR)

3. Missing Not at Random (MNAR)

List wise Deletion/ Dropping rows

Dropping complete columns

Syed Afroz Ali (Data Scientist)

Syed Afroz Ali (Data Scientist)

from sklearn.impute import SimpleImputer

Imputations Techniques for Time Series Problems

 'ffill' or 'pad' - Replace NaN s with last observed value

Syed Afroz Ali (Data Scientist)

Syed Afroz Ali (Data Scientist)

# Interpolate using the linear method

Syed Afroz Ali (Data Scientist)

K-Nearest Neighbour Imputation

Multivariate feature imputation - Multivariate imputation by chained equations (MICE)

Syed Afroz Ali (Data Scientist)

Syed Afroz Ali (Data Scientist)

You might also like