Data Engineer Interview 1740985064

This document is a cheatsheet for Exploratory Data Analysis (EDA) using Pandas, covering data loading, overview, missing values, duplicates, summary statistics, value counts, correlation, grouping, data visualization, cleaning, transformation, datetime analysis, filtering, handling outliers, and pivot tables. It provides concise code snippets for each EDA task, making it a quick reference for data analysts. Additionally, it includes links for career guidance and certification courses.

Uploaded by

Saba Hussien

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

50 views14 pages

Data Engineer Interview 1740985064

Uploaded by

Saba Hussien

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 14

Pandas EDA

(Exploratory
Data Analysis)
Cheatsheet
📂 Data Loading
pd.read_csv(path): Reads a CSV file
pd.read_excel(path, sheet_name="Sheet1"):
Reads an Excel file
pd.read_sql(query, Connection_Object): Reads
SQL table
pd.read_json(path): Reads a JSON file
pd.read_html(url): Reads tables from an HTML
page
pd.read_parquet(path): Reads a Parquet file
df.to_csv("output.csv", index=False): Saves
DataFrame to a CSV file
df.to_excel("output.xlsx", index=False): Saves
DataFrame to an Excel file
df.to_json("output.json"): Saves DataFrame to
a JSON file
df.to_parquet("output.parquet"): Saves
DataFrame to a Parquet file
🔎 Data Overview
df.head(n): Displays first n rows (default
5)
df.tail(n): Displays last n rows (default 5)
df.shape: Returns (rows, columns)
df.info(): Displays column data types &
memory usage
df.columns: Lists all column names
df.index: Displays index range
df.dtypes: Shows data types of each
column
df.describe(): Summary statistics for
numerical columns
df.describe(include="all"): Summary
statistics for all columns
🔍 Checking Missing Values
df.isnull().sum(): Counts missing values in each
column
df.isna().sum(): Same as isnull()
df[df.isnull().any(axis=1)]: Displays rows with
missing values
df.dropna(): Removes rows with missing values
df.fillna(value): Replaces missing values with a
specified value
df.fillna(df.median()): Fills missing values with
median
df.interpolate(): Performs linear interpolation to
fill NaN

📊 Checking Duplicates
df.duplicated(): Returns a Boolean Series for
duplicate rows
df[df.duplicated()]: Displays duplicate rows
df.drop_duplicates(): Removes duplicate rows
📊 Summary Statistics
df.mean(): Mean of numerical columns
df.median(): Median of numerical
columns
df.mode(): Mode of numerical columns
df.std(): Standard deviation of numerical
columns
df.var(): Variance of numerical columns
df.min(): Minimum value of each column
df.max(): Maximum value of each
column
df.count(): Count of non-null values per
column
df.nunique(): Number of unique values
per column
📊 Value Counts & Distributions
df["column"].value_counts(): Counts
occurrences of each unique value
df["column"].value_counts(normalize=Tr
ue): Normalized value counts
(percentage)
df["column"].unique(): Lists unique values
df["column"].nunique(): Number of
unique values

📊 Correlation & Covariance

df.corr(): Correlation matrix (Pearson by
default)
df.corr(method="kendall"): Kendall
correlation
df.corr(method="spearman"): Spearman
correlation
df.cov(): Covariance matrix
📊 Grouping & Aggregation
df.groupby("column")["value"].mean():
Groups by column and gets mean
df.groupby("column")["value"].agg(["sum",
"count", "mean"]): Aggregates multiple stats
df.pivot_table(values="sales",
index="category", aggfunc="sum"): Pivot
table
📈 Data Visualization (Quick Plots)
df.hist(figsize=(10, 5)): Histogram for numerical
columns
df.boxplot(figsize=(10, 5)): Box plot for outlier
detection
df["column"].plot(kind="hist"): Histogram for a
single column
df["column"].plot(kind="box"): Box plot for a
single column
df.plot(kind="scatter", x="col1", y="col2"):
Scatter plot
🧹 Data Cleaning & Transformation
df["column"].str.lower(): Converts text to
lowercase
df["column"].str.upper(): Converts text to
uppercase
df["column"].str.strip(): Removes
leading/trailing spaces
df["column"].str.replace("old", "new"):
Replaces text
df["column"].astype("int"): Converts
column to integer type
df["column"] =
pd.to_datetime(df["column"]): Converts
column to datetime
🕰️ DateTime Analysis
df["date_column"].dt.year: Extracts year
df["date_column"].dt.month: Extracts month
df["date_column"].dt.day: Extracts day
df["date_column"].dt.weekday: Extracts
weekday
🔍 Data Filtering & Selection
df.loc[condition]: Filters data based on a
condition
df.query('condition'): Filters data using a query
string
df.iloc[start:end]: Selects rows by position
(inclusive start, exclusive end)
df[df["column"] > value]: Filters rows where
column values are greater than a specified
value
df[df["column"].isin([value1, value2]): Filters
rows where the column matches any of the
specified values
🔍 Handling Outliers
Using Z-Score
from scipy import stats
z_scores = stats.zscore(df["column"]):
Computes Z-scores for a column
df = df[(z_scores < 3) & (z_scores > -3)]: Filters
out outliers with Z-scores above 3 or below -3
📊 Pivot Tables & Cross Tabulation
pd.pivot_table(df, values='value',
index='row_group', columns='column_group',
aggfunc='sum'): Creates pivot table with
aggregation
pd.crosstab(df['column1'], df['column2'],
margins=True): Creates a cross-tabulation of
two columns (with margins)
df.pivot_table(values="value",
index="category", aggfunc=["sum", "mean",
"std"]): Multiple aggregation functions in a
pivot table
FOR CAREER GUIDANCE,
CHECK OUT OUR PAGE
www.nityacloudtech.com

Follow Us on Linkedin:
Aditya Chandak
Free SQL Interview Preparation:
https://topmate.io/nitya_cloudtech/1403841

Data Analyst Certification:

https://nityacloudtech.com/pages/courses/NCT_Courses

Data Engineer Certification:

https://nityacloudtech.com/pages/courses/NCT_Courses

Artificial Intelligence Certification:

https://nityacloudtech.com/pages/courses/NCT_Courses

Register for Free AI Workshop:

https://nityacloudtech.com/pages/placement_training/AI_MLMasterClass

EDA Cheat Sheet - Exploratory Data Analysis
No ratings yet
EDA Cheat Sheet - Exploratory Data Analysis
2 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
20 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
6 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Pandas Trampas
No ratings yet
Pandas Trampas
9 pages
Python Data Science Cheat Sheet
0% (1)
Python Data Science Cheat Sheet
3 pages
Pandas Dataframe Cheat Sheet
No ratings yet
Pandas Dataframe Cheat Sheet
3 pages
Cheat Sheet
No ratings yet
Cheat Sheet
12 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Overview of Pandas DataFrames
No ratings yet
Overview of Pandas DataFrames
21 pages
EDA Step by Step
No ratings yet
EDA Step by Step
2 pages
Pandas Operations Guide
No ratings yet
Pandas Operations Guide
6 pages
Data Visualization with Python Guide
No ratings yet
Data Visualization with Python Guide
35 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Introduction To Pandas
No ratings yet
Introduction To Pandas
27 pages
Data Science Cheat Sheet: KEY Imports
100% (1)
Data Science Cheat Sheet: KEY Imports
1 page
Justenoughpython Pandas 220915 175329
No ratings yet
Justenoughpython Pandas 220915 175329
64 pages
Unit IV
No ratings yet
Unit IV
49 pages
ELT Using Pandas
No ratings yet
ELT Using Pandas
5 pages
Pandas DataFrame Notes
100% (1)
Pandas DataFrame Notes
10 pages
Pandas DataFrame Cheat Sheet
100% (1)
Pandas DataFrame Cheat Sheet
10 pages
Pandas DataFrame Cheat Sheet
No ratings yet
Pandas DataFrame Cheat Sheet
4 pages
Pandas Cheat Sheet for Data Science
No ratings yet
Pandas Cheat Sheet for Data Science
5 pages
Learn Pandas
No ratings yet
Learn Pandas
37 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
10 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
Exploratory Data Analysis: by Neha Mathur
No ratings yet
Exploratory Data Analysis: by Neha Mathur
14 pages
2,3. Introduction Pandas & Matplotlib
No ratings yet
2,3. Introduction Pandas & Matplotlib
32 pages
Pandas 1702216043
No ratings yet
Pandas 1702216043
86 pages
Python Cheat Sheet Code Academy
100% (1)
Python Cheat Sheet Code Academy
1 page
Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
ML Lab1 Python Panda
No ratings yet
ML Lab1 Python Panda
9 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
Cheat Sheet: Python For Data Science
No ratings yet
Cheat Sheet: Python For Data Science
1 page
Pandas+With+Python+ +DATAhill+Solutions
No ratings yet
Pandas+With+Python+ +DATAhill+Solutions
24 pages
Asfasdas
No ratings yet
Asfasdas
36 pages
Essential Pandas Cheat Sheet Guide
No ratings yet
Essential Pandas Cheat Sheet Guide
5 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
12 pages
Pandas Data Wrangling Cheat Sheet
100% (2)
Pandas Data Wrangling Cheat Sheet
6 pages
Python Pandas Cheat Sheet Guide
No ratings yet
Python Pandas Cheat Sheet Guide
11 pages
Windows
No ratings yet
Windows
1 page
IHRP Incident Detection
No ratings yet
IHRP Incident Detection
1 page
001 - Introduction and Installation
No ratings yet
001 - Introduction and Installation
29 pages
Comptia Linuxxk0005 10 1 1 Configuring A Network Adapter
No ratings yet
Comptia Linuxxk0005 10 1 1 Configuring A Network Adapter
2 pages
INE Exploit Development Buffer Overflows Course File
No ratings yet
INE Exploit Development Buffer Overflows Course File
56 pages
INE Command and Control C2 CC Course File
No ratings yet
INE Command and Control C2 CC Course File
73 pages
YPDP Brochure - 2024
No ratings yet
YPDP Brochure - 2024
8 pages
Best Practices For Team-Based Development
No ratings yet
Best Practices For Team-Based Development
4 pages
Madanapalle Institute of Technology & Science: Madanapalle (Ugc-Autonomous) WWW - Mits.ac - in
No ratings yet
Madanapalle Institute of Technology & Science: Madanapalle (Ugc-Autonomous) WWW - Mits.ac - in
41 pages
NSA Guide Keeping Home Network Secure
No ratings yet
NSA Guide Keeping Home Network Secure
4 pages
Manual Carrier AQUASNAP 30RA - RH
No ratings yet
Manual Carrier AQUASNAP 30RA - RH
36 pages
ICDTA'25 Conference Program VF
No ratings yet
ICDTA'25 Conference Program VF
33 pages
Examly Result Analysis for Hexaware
No ratings yet
Examly Result Analysis for Hexaware
14 pages
Request & Reply Letter Guide
No ratings yet
Request & Reply Letter Guide
15 pages
Django for Beginners: Travel Blog
100% (1)
Django for Beginners: Travel Blog
130 pages
FDHGAF
No ratings yet
FDHGAF
27 pages
Canon MF469!5!1 2ppbrochure FA Low 1
No ratings yet
Canon MF469!5!1 2ppbrochure FA Low 1
2 pages
Upgrade Preparation ERP Cloud R13 280918
No ratings yet
Upgrade Preparation ERP Cloud R13 280918
21 pages
Wk12 - Motivations-Protocol Design and Validation
No ratings yet
Wk12 - Motivations-Protocol Design and Validation
23 pages
Government of India Human Resource Development Division
No ratings yet
Government of India Human Resource Development Division
1 page
Survey On Iot Based Smart Wastebin
No ratings yet
Survey On Iot Based Smart Wastebin
76 pages
MPMC
No ratings yet
MPMC
19 pages
Grade 4 ICT Final Exam
90% (10)
Grade 4 ICT Final Exam
2 pages
Gaurav Shishodiya Resume-Compressed
No ratings yet
Gaurav Shishodiya Resume-Compressed
2 pages
MCA Problem Solving & Programming Exam 2018
No ratings yet
MCA Problem Solving & Programming Exam 2018
25 pages
Running BGP in Data Centers at Scale Final
No ratings yet
Running BGP in Data Centers at Scale Final
17 pages
Cs22u KVM Switch Ss en
No ratings yet
Cs22u KVM Switch Ss en
1 page
Office 2010 Beta Installation Guide
No ratings yet
Office 2010 Beta Installation Guide
2 pages
PotPlayerMini64 PotPlayer配置文件
No ratings yet
PotPlayerMini64 PotPlayer配置文件
4 pages
@up - Daisycloud - @foxbaseworld #Ulp-358
No ratings yet
@up - Daisycloud - @foxbaseworld #Ulp-358
4,733 pages
Speech-Controlled ATM Simulator Project
No ratings yet
Speech-Controlled ATM Simulator Project
146 pages
Deep Learning Lectures - 3
No ratings yet
Deep Learning Lectures - 3
75 pages
2K22 - Rep - Arduino Based Smart Shoe System For Women Safety
No ratings yet
2K22 - Rep - Arduino Based Smart Shoe System For Women Safety
50 pages
Highway Geometric Design Guide
No ratings yet
Highway Geometric Design Guide
7 pages
Business Listing Website
No ratings yet
Business Listing Website
5 pages
Confirmation Matching - User Guide: Release R15.000
No ratings yet
Confirmation Matching - User Guide: Release R15.000
25 pages