0% found this document useful (0 votes)

34 views15 pages

Handling Nulls in PySpark

The document provides a comprehensive guide on handling null values and missing data in PySpark, covering methods for checking, counting, dropping, and filling null values. It also discusses replacing nulls with statistical measures like mean, median, and mode, as well as techniques for forward and backward filling using window functions. Additionally, it addresses handling nulls in aggregations, joins, and complex data types such as arrays and structs.

Uploaded by

copy00166

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

34 views15 pages

Handling Nulls in PySpark

Uploaded by

copy00166

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Handling Null

Values & Missing

Data in PySpark

Karthik Kondpak Swipe for more

1. Checking for Null Values
Before handling null values, it's good practice to check
for their presence in a DataFrame.

Using isNull() and isNotNull()

from pyspark.sql.functions import col

df.filter(col("column_name").isNull()).show()
df.filter(col("column_name").isNotNull()).show()

Using na Functions

df.select([col(c).isNull().alias(c) for c in
df.columns]).show()

https://www.seekhobigdata.com/ Swipe for more

Counting Null Values

from pyspark.sql.functions import count, when

df.select([count(when(col(c).isNull(), c)).alias(c)
for c in df.columns]).show()

https://www.seekhobigdata.com/ Swipe for more

2. Dropping Null Values
PySpark provides the .dropna() function to remove
rows with null values.

df.na.drop()

Dropping Rows Based on Conditions

Drop rows if any column has null:

df.na.drop("any")

https://www.seekhobigdata.com/ Swipe for more

Drop rows only if all columns are null:

df.na.drop("all")

Drop rows based on a subset of columns:

df.na.drop(subset=["column1", "column2"])

https://www.seekhobigdata.com/ Swipe for more

3. Filling Null Values
Instead of dropping null values, you can replace
them using .fillna().

Filling with a Specific Value

df.na.fill("default_value").show()
df.na.fill(0).show()

Filling with Different Values for Different

Columns

df.na.fill({"column1": "unknown", "column2":

0}).show()

https://www.seekhobigdata.com/ Swipe for more

4. Replacing Null with
Mean/Median/Mode
To replace null values with the column mean,
median, or mode:

Filling with Mean

from pyspark.sql.functions import mean

mean_value =
df.select(mean(col("column_name"))).collect()[0]
[0]
df = df.na.fill(mean_value, subset=
["column_name"])

https://www.seekhobigdata.com/ Swipe for more

Filling with Median

from pyspark.sql.functions import expr

median_value =
df.approxQuantile("column_name", [0.5], 0.01)[0]
df = df.na.fill(median_value, subset=
["column_name"])

Filling with Mode

from pyspark.sql.functions import count, col

mode_value =
df.groupBy("column_name").count().orderBy(col(
"count").desc()).first()[0]
df = df.na.fill(mode_value, subset=
["column_name"])

https://www.seekhobigdata.com/ Swipe for more

5. Replacing Null Values with Forward Fill
& Backward Fill

PySpark doesn’t have built-in functions for forward fill

(ffill) or backward fill (bfill), but you can achieve it using
window functions.

Forward Fill (ffill)

from pyspark.sql.window import Window

from pyspark.sql.functions import last

window_spec =
Window.orderBy("some_column").rowsBetween(-
sys.maxsize, 0)
df = df.withColumn("column_name",
last("column_name", True).over(window_spec))

https://www.seekhobigdata.com/ Swipe for more

Backward Fill (bfill)

window_spec =
Window.orderBy("some_column").rowsBetween(
0, sys.maxsize)
df = df.withColumn("column_name",
last("column_name", False).over(window_spec))

https://www.seekhobigdata.com/ Swipe for more

6. Handling Null Values in Aggregations

By default, PySpark ignores null values in aggregations.

Count Including Nulls

df.agg(count("column_name")).show()

Count Excluding Nulls

df.agg(count(when(col("column_name").isNotNull
(), True))).show()

https://www.seekhobigdata.com/ Swipe for more

7. Handling Null Values in Joins
While performing joins, null values in keys can create
issues.

Using fillna() Before Joins

df1 = df1.na.fill("unknown", subset=

["join_column"])
df2 = df2.na.fill("unknown", subset=
["join_column"])
joined_df = df1.join(df2, on="join_column",
how="inner")

https://www.seekhobigdata.com/ Swipe for more

Using coalesce() to Handle Null Joins

from pyspark.sql.functions import coalesce

df1 = df1.withColumn("join_column",
coalesce(col("join_column"), lit("default_value")))
df2 = df2.withColumn("join_column",
coalesce(col("join_column"), lit("default_value")))
joined_df = df1.join(df2, "join_column", "inner")

https://www.seekhobigdata.com/ Swipe for more

8. Handling Nulls in Complex Data
Types
Handling Null in Arrays
from pyspark.sql.functions import array_remove

df = df.withColumn("array_column",
array_remove("array_column", None))

Handling Null in Structs

df = df.withColumn("struct_column",
col("struct_column").alias("new_struct")).drop("st
ruct_column")

https://www.seekhobigdata.com/ Swipe for more

If you
find this
helpful, like
and share it
with your
friends

https://www.seekhobigdata.com/

PySpark Handling Nulls
No ratings yet
PySpark Handling Nulls
7 pages
Scenarios Where Bad Records Occur
No ratings yet
Scenarios Where Bad Records Occur
38 pages
Pyspark Distinct and Filter
No ratings yet
Pyspark Distinct and Filter
3 pages
Understanding df.isnull().sum() in Pandas
No ratings yet
Understanding df.isnull().sum() in Pandas
8 pages
Pyspark SQL and DataFrames
No ratings yet
Pyspark SQL and DataFrames
6 pages
PySpark DataFrame Operations Guide
No ratings yet
PySpark DataFrame Operations Guide
10 pages
PySpark DataFrame Operations Guide
No ratings yet
PySpark DataFrame Operations Guide
10 pages
Pyspark 12 Questions
No ratings yet
Pyspark 12 Questions
8 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
Must Know Pyspark Coding Before Databricks Interview
No ratings yet
Must Know Pyspark Coding Before Databricks Interview
7 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Unit2 Part2 Da
No ratings yet
Unit2 Part2 Da
45 pages
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Module 3
No ratings yet
Module 3
20 pages
Pandas
No ratings yet
Pandas
30 pages
PySpark SQL Pandas CheatSheet
No ratings yet
PySpark SQL Pandas CheatSheet
2 pages
Pandas Dataframe All Operations 1735471870
No ratings yet
Pandas Dataframe All Operations 1735471870
4 pages
Pyspark Coding Questions From StrataScratch Platform
No ratings yet
Pyspark Coding Questions From StrataScratch Platform
23 pages
Databricks Vs SQL Cheat Sheet
100% (2)
Databricks Vs SQL Cheat Sheet
11 pages
2.1 Combining Data Frames
No ratings yet
2.1 Combining Data Frames
38 pages
PySpark All Query
No ratings yet
PySpark All Query
22 pages
What Is The Concept of Data Cleaning
No ratings yet
What Is The Concept of Data Cleaning
20 pages
Unit 5 Python
No ratings yet
Unit 5 Python
30 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
14 pages
Error Handling & Debugging in PySpark PDF
No ratings yet
Error Handling & Debugging in PySpark PDF
8 pages
How To Work With Apache Spark and Delta Lake?
No ratings yet
How To Work With Apache Spark and Delta Lake?
40 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Day11 Notes
No ratings yet
Day11 Notes
2 pages
Pandas Data Cleaning Techniques Guide
No ratings yet
Pandas Data Cleaning Techniques Guide
11 pages
Pyspark Interview 1738079940
No ratings yet
Pyspark Interview 1738079940
6 pages
Pandas Cheat Sheet for Data Manipulation
No ratings yet
Pandas Cheat Sheet for Data Manipulation
1 page
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Pandas
No ratings yet
Pandas
35 pages
Data Cleaning With Python and Pandas
No ratings yet
Data Cleaning With Python and Pandas
49 pages
EDA Cheat Sheet - Exploratory Data Analysis
No ratings yet
EDA Cheat Sheet - Exploratory Data Analysis
2 pages
UQ21CA632B Unit2 Class15 Clean Dirty Data
No ratings yet
UQ21CA632B Unit2 Class15 Clean Dirty Data
10 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Pandas
No ratings yet
Pandas
4 pages
Spark SQL Optimization - Real Case Studies
No ratings yet
Spark SQL Optimization - Real Case Studies
18 pages
Core of ML - Part 1 Handling Data
No ratings yet
Core of ML - Part 1 Handling Data
3 pages
Day 49
No ratings yet
Day 49
8 pages
Spark Questions
No ratings yet
Spark Questions
7 pages
30 Pyspark Coding Questions
No ratings yet
30 Pyspark Coding Questions
9 pages
DSBDA Practical 2 Tutorial
No ratings yet
DSBDA Practical 2 Tutorial
14 pages
PySpark DataFrame Cleaning Techniques
No ratings yet
PySpark DataFrame Cleaning Techniques
25 pages
PySpark DataFrame Merging Guide
No ratings yet
PySpark DataFrame Merging Guide
42 pages
Ass-2 Ds
No ratings yet
Ass-2 Ds
29 pages
Data Cleaning
No ratings yet
Data Cleaning
52 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Geometric Distribution
100% (1)
Geometric Distribution
3 pages
Changes - Quiz 2
No ratings yet
Changes - Quiz 2
5 pages
Assignments - by Shivam Chaudhary
No ratings yet
Assignments - by Shivam Chaudhary
14 pages
Apache Spark Guide
No ratings yet
Apache Spark Guide
33 pages
Questions On DNS
No ratings yet
Questions On DNS
46 pages
Data Engineering Concepts For Mid-to-Senior Professionals
No ratings yet
Data Engineering Concepts For Mid-to-Senior Professionals
27 pages
Probability Final Exam
No ratings yet
Probability Final Exam
2 pages
ICEM CFD Introductory Course: Volume Meshing
No ratings yet
ICEM CFD Introductory Course: Volume Meshing
23 pages
Framing Questions for Data Analytics
No ratings yet
Framing Questions for Data Analytics
59 pages
Computer Monitors
No ratings yet
Computer Monitors
16 pages
Embedded Systems Course Guide
No ratings yet
Embedded Systems Course Guide
29 pages
Public Domain Elements of Logic PDF
No ratings yet
Public Domain Elements of Logic PDF
365 pages
Cryptography Cipher Case Study
No ratings yet
Cryptography Cipher Case Study
6 pages
Project Report Sakshi
No ratings yet
Project Report Sakshi
22 pages
Unit 4 Communication
No ratings yet
Unit 4 Communication
3 pages
Pro Burner
No ratings yet
Pro Burner
11 pages
An SM 011
No ratings yet
An SM 011
13 pages
Aku-Eb Model Paper 2020 For Teaching & Learning
No ratings yet
Aku-Eb Model Paper 2020 For Teaching & Learning
8 pages
Final Test Math
No ratings yet
Final Test Math
12 pages
Updated FDPP Request For Rectification Form
No ratings yet
Updated FDPP Request For Rectification Form
2 pages
Shivam's CV
No ratings yet
Shivam's CV
2 pages
Payout System Design Overview
No ratings yet
Payout System Design Overview
3 pages
GSM Multi-Sector Solution Guide (GSM BSS Draft A)
100% (1)
GSM Multi-Sector Solution Guide (GSM BSS Draft A)
21 pages
VFD vs Soft Starter: Motor Control Guide
No ratings yet
VFD vs Soft Starter: Motor Control Guide
6 pages
Thesis Writing Help for Students
100% (1)
Thesis Writing Help for Students
5 pages
Android Dental Clinic Scheduler
No ratings yet
Android Dental Clinic Scheduler
13 pages
Iphone Repair & Service - Apple Support
No ratings yet
Iphone Repair & Service - Apple Support
1 page
Final Results Record
No ratings yet
Final Results Record
41 pages
Max Trend Points (BigBeluga)
No ratings yet
Max Trend Points (BigBeluga)
2 pages
Block Diagram: What Is The Picozed 7030?
No ratings yet
Block Diagram: What Is The Picozed 7030?
7 pages
Literature Review For Supermarket Billing System
100% (2)
Literature Review For Supermarket Billing System
6 pages
78 - Used Car Price Prediction Using Machine Learning
100% (1)
78 - Used Car Price Prediction Using Machine Learning
5 pages
Weigh Bridge 123
100% (1)
Weigh Bridge 123
22 pages
Machine To Machine Communication and BotX Devang Seminar
No ratings yet
Machine To Machine Communication and BotX Devang Seminar
26 pages
BAg - FDD - Accrued API
No ratings yet
BAg - FDD - Accrued API
13 pages
Guide To Syncsort PDF
No ratings yet
Guide To Syncsort PDF
41 pages

Handling Nulls in PySpark

Uploaded by

Handling Nulls in PySpark

Uploaded by

Handling Null

Values & Missing

Karthik Kondpak Swipe for more

Using isNull() and isNotNull()

from pyspark.sql.functions import col

https://www.seekhobigdata.com/ Swipe for more

from pyspark.sql.functions import count, when

https://www.seekhobigdata.com/ Swipe for more

Dropping Rows Based on Conditions

Drop rows if any column has null:

https://www.seekhobigdata.com/ Swipe for more

Drop rows based on a subset of columns:

https://www.seekhobigdata.com/ Swipe for more

Filling with a Specific Value

Filling with Different Values for Different

df.na.fill({"column1": "unknown", "column2":

https://www.seekhobigdata.com/ Swipe for more

Filling with Mean

from pyspark.sql.functions import mean

https://www.seekhobigdata.com/ Swipe for more

from pyspark.sql.functions import expr

Filling with Mode

from pyspark.sql.functions import count, col

https://www.seekhobigdata.com/ Swipe for more

PySpark doesn’t have built-in functions for forward fill

Forward Fill (ffill)

from pyspark.sql.window import Window

https://www.seekhobigdata.com/ Swipe for more

https://www.seekhobigdata.com/ Swipe for more

By default, PySpark ignores null values in aggregations.

Count Including Nulls

Count Excluding Nulls

https://www.seekhobigdata.com/ Swipe for more

Using fillna() Before Joins

df1 = df1.na.fill("unknown", subset=

https://www.seekhobigdata.com/ Swipe for more

from pyspark.sql.functions import coalesce

https://www.seekhobigdata.com/ Swipe for more

Handling Null in Structs

https://www.seekhobigdata.com/ Swipe for more

You might also like