0% found this document useful (0 votes)

35 views6 pages

Cheat Sheet - Pandas

iml

Uploaded by

BENAZIR AE

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

35 views6 pages

Cheat Sheet - Pandas

iml

Uploaded by

BENAZIR AE

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

Cheat Sheet - Exploratory Data

Analysis (EDA) with Pandas

1. Data Loading
 Read CSV File: df = pd.read_csv('filename.csv')
 Read Excel File: df = pd.read_excel('filename.xlsx')
 Read from SQL Database: df = pd.read_sql(query, connection)

2. Basic Data Inspection

 Display Top Rows: df.head()
 Display Bottom Rows: df.tail()
 Display Data Types: df.dtypes
 Summary Statistics: df.describe()
 Display Index, Columns, and Data: df.info()

3. Data Cleaning
 Check for Missing Values: df.isnull().sum()
 Fill Missing Values: df.fillna(value)
 Drop Missing Values: df.dropna()
 Rename Columns: df.rename(columns={'old_name': 'new_name'})
 Drop Columns: df.drop(columns=['column_name'])

4. Data Transformation
 Apply Function: df['column'].apply(lambda x: function(x))
 Group By and Aggregate: df.groupby('column').agg({'column': 'sum'})
 Pivot Tables: df.pivot_table(index='column1', values='column2',
aggfunc='mean')
 Merge DataFrames: pd.merge(df1, df2, on='column')
 Concatenate DataFrames: pd.concat([df1, df2])

5. Data Visualization Integration

 Histogram: df['column'].hist()
 Boxplot: df.boxplot(column=['column1', 'column2'])
 Scatter Plot: df.plot.scatter(x='col1', y='col2')
 Line Plot: df.plot.line()
 Bar Chart: df['column'].value_counts().plot.bar()
6. Statistical Analysis
 Correlation Matrix: df.corr()
 Covariance Matrix: df.cov()
 Value Counts: df['column'].value_counts()
 Unique Values in Column: df['column'].unique()
 Number of Unique Values: df['column'].nunique()

7. Indexing and Selection

 Select Column: df['column']
 Select Multiple Columns: df[['col1', 'col2']]
 Select Rows by Position: df.iloc[0:5]
 Select Rows by Label: df.loc[0:5]
 Conditional Selection: df[df['column'] > value]

8. Data Formatting and Conversion

 Convert Data Types: df['column'].astype('type')
 String Operations: df['column'].str.lower()
 Datetime Conversion: pd.to_datetime(df['column'])
 Setting Index: df.set_index('column')

9. Advanced Data Transformation

 Lambda Functions: df.apply(lambda x: x + 1)
 Pivot Longer/Wider Format: df.melt(id_vars=['col1'])
 Stack/Unstack: df.stack(), df.unstack()
 Cross Tabulations: pd.crosstab(df['col1'], df['col2'])

10. Handling Time Series Data

 Set Datetime Index: df.set_index(pd.to_datetime(df['date']))
 Resampling Data: df.resample('M').mean()
 Rolling Window Operations: df.rolling(window=5).mean()

11. File Export

 Write to CSV: df.to_csv('filename.csv')
 Write to Excel: df.to_excel('filename.xlsx')
 Write to SQL Database: df.to_sql('table_name', connection)

12. Data Exploration Techniques

 Profile Report (with pandas-profiling): from pandas_profiling import
ProfileReport; ProfileReport(df)
 Pairplot (with seaborn): import seaborn as sns; sns.pairplot(df)
 Heatmap for Correlation (with seaborn): sns.heatmap(df.corr(), annot=True)

13. Advanced Data Queries

 Query Function: df.query('column > value')
 Filtering with isin: df[df['column'].isin([value1, value2])]

14. Memory Optimization

 Reducing Memory Usage: df.memory_usage(deep=True)
 Change Data Types to Save Memory: df['column'].astype('category')

15. Multi-Index Operations

 Creating MultiIndex: df.set_index(['col1', 'col2'])
 Slicing on MultiIndex: df.loc[(slice('index1_start', 'index1_end'),
slice('index2_start', 'index2_end'))]

16. Data Merging Techniques

 Outer Join: pd.merge(df1, df2, on='column', how='outer')
 Inner Join: pd.merge(df1, df2, on='column', how='inner')
 Left Join: pd.merge(df1, df2, on='column', how='left')
 Right Join: pd.merge(df1, df2, on='column', how='right')

17. Dealing with Duplicates

 Finding Duplicates: df.duplicated()
 Removing Duplicates: df.drop_duplicates()

18. Custom Operations with Apply

 Custom Apply Functions: df.apply(lambda row: custom_func(row['col1'],
row['col2']), axis=1)

19. Handling Large Datasets

 Chunking Large Files: pd.read_csv('large_file.csv', chunksize=1000)
 Iterating Through Data Chunks: for chunk in pd.read_csv('file.csv',
chunksize=500): process(chunk)
20. Integration with Matplotlib for Custom Plots
 Custom Plotting: import matplotlib.pyplot as plt; df.plot(); plt.show()

21. Specialized Data Types Handling

 Working with Categorical Data: df['column'].astype('category')
 Dealing with Sparse Data: pd.arrays.SparseArray(df['column'])

22. Performance Tuning

 Using Swifter for Faster Apply: import swifter;
df['column'].swifter.apply(lambda x: func(x))
 Parallel Processing with Dask: import dask.dataframe as dd; ddf =
dd.from_pandas(df, npartitions=10)

23. Visualization Enhancement

 Customize Plot Style: plt.style.use('ggplot')
 Histogram with Bins Specification: df['column'].hist(bins=20)
 Boxplot Grouped by Category: df.boxplot(column='num_column',
by='cat_column')

24. Advanced Grouping and Aggregation

 Group by Multiple Columns: df.groupby(['col1', 'col2']).mean()
 Aggregate with Multiple Functions: df.groupby('col').agg(['mean', 'sum'])
 Transform Function: df.groupby('col').transform(lambda x: x - x.mean())

25. Time Series Specific Operations

 Time-Based Grouping: df.groupby(pd.Grouper(key='date_col',
freq='M')).sum()
 Shifting Series for Lag Analysis: df['column'].shift(1)
 Resample Time Series Data: df.resample('M', on='date_col').mean()

26. Text Data Specific Operations

 String Contains: df[df['column'].str.contains('substring')]
 String Split: df['column'].str.split(' ', expand=True)
 Regular Expression Extraction: df['column'].str.extract(r'(regex)')

27. Data Normalization and Standardization

 Min-Max Normalization: (df['column'] - df['column'].min()) / (df['column'].max()
- df['column'].min())
 Z-Score Standardization: (df['column'] - df['column'].mean()) /
df['column'].std()

28. Working with JSON and XML

 Reading JSON: df = pd.read_json('filename.json')
 Reading XML: df = pd.read_xml('filename.xml')

29. Advanced File Handling

 Read CSV with Specific Delimiter: df = pd.read_csv('filename.csv',
delimiter=';')
 Writing to JSON: df.to_json('filename.json')

30. Dealing with Missing Data

 Interpolate Missing Values: df['column'].interpolate()
 Forward Fill Missing Values: df['column'].ffill()
 Backward Fill Missing Values: df['column'].bfill()

31. Data Reshaping

 Wide to Long Format: pd.wide_to_long(df, ['col'], i='id_col', j='year')
 Long to Wide Format: df.pivot(index='id_col', columns='year', values='col')

32. Categorical Data Operations

 Convert Column to Categorical: df['column'] = df['column'].astype('category')
 Order Categories: df['column'].cat.set_categories(['cat1', 'cat2'],
ordered=True)

33. Advanced Indexing

 Reset Index: df.reset_index(drop=True)
 Set Multiple Indexes: df.set_index(['col1', 'col2'])
 MultiIndex Slicing: df.xs(key='value', level='level_name')

34. Efficient Computations

 Use of eval() for Efficient Operations: df.eval('col1 + col2')
 Query Method for Filtering: df.query('col1 < col2')
35. Integration with SciPy and StatsModels
 Linear Regression (with statsmodels): import statsmodels.api as sm;
sm.OLS(y, X).fit()
 Kurtosis and Skewness (with SciPy): from scipy.stats import kurtosis, skew;
kurtosis(df['column']), skew(df['column'])

36. Handling Large Data Efficiently

 Dask Integration for Large Data: import dask.dataframe as dd; ddf =
dd.from_pandas(df, npartitions=10)
 Sampling Data for Quick Insights: df.sample(n=1000)

37. Advanced Data Merging

 SQL-like Joins: pd.merge(df1, df2, how='left', on='col')
 Concatenating Along a Different Axis: pd.concat([df1, df2], axis=1)

38. Profiling Data for Quick Insights

 Using Pandas Profiling for Quick Analysis: from pandas_profiling import
ProfileReport; report = ProfileReport(df)

39. Working with External Data Sources

 Reading Data from HTML: dfs = pd.read_html('http://example.com')
 Connecting to a SQL Database: from sqlalchemy import create_engine; engine
= create_engine('sqlite:///db.sqlite'); df = pd.read_sql('SELECT * FROM
table_name', engine)

40. Data Quality Checks

 Assert Statement for Data Validation: assert df.notnull().all().all(), "There are
missing values in the dataframe"

Pandas Trampas
No ratings yet
Pandas Trampas
9 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Pandas Dataframe Cheat Sheet
No ratings yet
Pandas Dataframe Cheat Sheet
3 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Python Data Cleaning Cheat Sheet
100% (4)
Python Data Cleaning Cheat Sheet
8 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Pandas Operations Guide
No ratings yet
Pandas Operations Guide
6 pages
ELT Using Pandas
No ratings yet
ELT Using Pandas
5 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Pandas Library: Data Manipulation & Analysis Guide
No ratings yet
Pandas Library: Data Manipulation & Analysis Guide
9 pages
Essential Pandas Cheat Sheet Guide
No ratings yet
Essential Pandas Cheat Sheet Guide
5 pages
Data Wrangling and EDA with PySpark
No ratings yet
Data Wrangling and EDA with PySpark
10 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
Data Wrangling & Data Manipulation With Pandas
No ratings yet
Data Wrangling & Data Manipulation With Pandas
6 pages
Pandas
No ratings yet
Pandas
13 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
Pandas Practise Problems
No ratings yet
Pandas Practise Problems
8 pages
Pandas
No ratings yet
Pandas
2 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
Learn Pandas
No ratings yet
Learn Pandas
37 pages
Pandas Dataframe All Operations 1735471870
No ratings yet
Pandas Dataframe All Operations 1735471870
4 pages
Python Data Science Cheat Sheet
0% (1)
Python Data Science Cheat Sheet
3 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
Data Analysis CheatSheet
No ratings yet
Data Analysis CheatSheet
2 pages
Cheat Sheet
No ratings yet
Cheat Sheet
12 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
Pandas
No ratings yet
Pandas
6 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Python and SQL Data Analysis Guide
No ratings yet
Python and SQL Data Analysis Guide
8 pages
Pandas Research
No ratings yet
Pandas Research
14 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
DataFrame 1
No ratings yet
DataFrame 1
3 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
CSV Data Handling Guide
No ratings yet
CSV Data Handling Guide
14 pages
Python Data Exploratory Commands
No ratings yet
Python Data Exploratory Commands
9 pages
Data Engineer Interview 1740985064
No ratings yet
Data Engineer Interview 1740985064
14 pages
Introduction To Pandas Programming 2
No ratings yet
Introduction To Pandas Programming 2
3 pages
Python Pandas: 12 Data Manipulation Techniques
100% (2)
Python Pandas: 12 Data Manipulation Techniques
19 pages
Reading An Entire File at Once: Generating Current Date
No ratings yet
Reading An Entire File at Once: Generating Current Date
2 pages
Advanced Analytic Techniques
No ratings yet
Advanced Analytic Techniques
2 pages
Data Science Cheat Sheet: KEY Imports
100% (1)
Data Science Cheat Sheet: KEY Imports
1 page
Pandas
No ratings yet
Pandas
35 pages
Analyzing Supermarket Sales Data
No ratings yet
Analyzing Supermarket Sales Data
6 pages
Pandas Notes
No ratings yet
Pandas Notes
8 pages
Basics of Pandas
No ratings yet
Basics of Pandas
5 pages
Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
Python Cheat Sheet Code Academy
100% (1)
Python Cheat Sheet Code Academy
1 page
Feature Collation Based On The Generalized Hough Transform: Lijuan Song
No ratings yet
Feature Collation Based On The Generalized Hough Transform: Lijuan Song
5 pages
PLANT
No ratings yet
PLANT
5 pages
RiceBioS
No ratings yet
RiceBioS
9 pages
Inception New
No ratings yet
Inception New
11 pages
Linear Regression
No ratings yet
Linear Regression
26 pages
Ex NO 9 DL LAB
No ratings yet
Ex NO 9 DL LAB
3 pages
JS Functions
No ratings yet
JS Functions
8 pages
Bootstrap Lab Manual
No ratings yet
Bootstrap Lab Manual
28 pages
Unit 1
No ratings yet
Unit 1
16 pages
Javascript Programs
No ratings yet
Javascript Programs
14 pages
Css Text Styling
No ratings yet
Css Text Styling
20 pages
Electrician
No ratings yet
Electrician
4 pages
R&D Engineer Job at SEDEMAC Mechatronics
No ratings yet
R&D Engineer Job at SEDEMAC Mechatronics
2 pages
Citizens Charter
No ratings yet
Citizens Charter
27 pages
Gardose vs. Tarroza: Liability of Accommodation Party
No ratings yet
Gardose vs. Tarroza: Liability of Accommodation Party
2 pages
RRSV Torts
100% (1)
RRSV Torts
14 pages
DPC Project File
No ratings yet
DPC Project File
16 pages
1391178941
No ratings yet
1391178941
9 pages
Dhmun 2023 Rop
No ratings yet
Dhmun 2023 Rop
16 pages
Biosafety Management
No ratings yet
Biosafety Management
3 pages
McDonald's Ireland Job Applicant Guide
No ratings yet
McDonald's Ireland Job Applicant Guide
5 pages
Sonali
No ratings yet
Sonali
1 page
Faith and Liberty The Economic Thought of The Late Scholastics Alejandro
No ratings yet
Faith and Liberty The Economic Thought of The Late Scholastics Alejandro
229 pages
Bookkeeping NC III: Posting Transactions
100% (2)
Bookkeeping NC III: Posting Transactions
36 pages
FBMC Physical Layer Overview
No ratings yet
FBMC Physical Layer Overview
31 pages
Node.js Guide for Developers
No ratings yet
Node.js Guide for Developers
2 pages
Pharmacology A Practical Manual For Medical Students First Edition 9789354662737 Compress
No ratings yet
Pharmacology A Practical Manual For Medical Students First Edition 9789354662737 Compress
194 pages
Thesis Analysis of The Export Process
No ratings yet
Thesis Analysis of The Export Process
59 pages
Alvin
No ratings yet
Alvin
11 pages
Gr11 FinancialStatements MEMO
No ratings yet
Gr11 FinancialStatements MEMO
21 pages
Seamless Pipe Project Atal Metal India With SS Grades
No ratings yet
Seamless Pipe Project Atal Metal India With SS Grades
4 pages
Charcoal MSDS
No ratings yet
Charcoal MSDS
11 pages
Overview of Hydraulic Actuators
No ratings yet
Overview of Hydraulic Actuators
27 pages
Natural Justice in Indian Law
100% (1)
Natural Justice in Indian Law
5 pages
Design of Slab
No ratings yet
Design of Slab
3 pages
Manage Meetings Assessment Guide
No ratings yet
Manage Meetings Assessment Guide
11 pages
Osti Ia G Interlocks All v032113
No ratings yet
Osti Ia G Interlocks All v032113
195 pages
Lean Supply Chain Management Based Value Stream Mapping in A Case of Thailand Automotive Industry
No ratings yet
Lean Supply Chain Management Based Value Stream Mapping in A Case of Thailand Automotive Industry
6 pages
IGS Geosynthetics in Slopes Stable Foundations
No ratings yet
IGS Geosynthetics in Slopes Stable Foundations
2 pages
Personality PDF
No ratings yet
Personality PDF
10 pages
Air Ambulance
No ratings yet
Air Ambulance
1 page

Cheat Sheet - Pandas

Uploaded by

Cheat Sheet - Pandas

Uploaded by

Cheat Sheet - Exploratory Data

Analysis (EDA) with Pandas

2. Basic Data Inspection

5. Data Visualization Integration

7. Indexing and Selection

8. Data Formatting and Conversion

9. Advanced Data Transformation

10. Handling Time Series Data

11. File Export

12. Data Exploration Techniques

13. Advanced Data Queries

14. Memory Optimization

15. Multi-Index Operations

16. Data Merging Techniques

17. Dealing with Duplicates

18. Custom Operations with Apply

19. Handling Large Datasets

21. Specialized Data Types Handling

22. Performance Tuning

23. Visualization Enhancement

24. Advanced Grouping and Aggregation

25. Time Series Specific Operations

26. Text Data Specific Operations

27. Data Normalization and Standardization

28. Working with JSON and XML

29. Advanced File Handling

30. Dealing with Missing Data

31. Data Reshaping

32. Categorical Data Operations

33. Advanced Indexing

34. Efficient Computations

36. Handling Large Data Efficiently

37. Advanced Data Merging

38. Profiling Data for Quick Insights

39. Working with External Data Sources

40. Data Quality Checks

You might also like