Lecture - 2 Pandas

The document discusses handling missing data in pandas, including methods for inserting, dropping, and filling missing values, as well as performing calculations that account for these values. It also covers various functions for summarizing data, such as describe(), idxmin(), idxmax(), and value_counts(), along with string processing methods that automatically exclude missing values. Additionally, it explains merging, joining, and concatenating DataFrames, highlighting the similarities to SQL operations.

Uploaded by

Rupal Gayakwad

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views24 pages

Lecture - 2 Pandas

Uploaded by

Rupal Gayakwad

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 24

LECTURE -2

PANDAS
Working With Missing Data
Values considered “missing”
pandas uses different sentinel values to represent a missing (also referred to as NA) depending on the data
type.
numpy.nan for NumPy data types. The disadvantage of using NumPy data types is that the original data
type will be coerced to np.float64 or object.
Inserting Missing Data

You can insert missing values by simply assigning to a Series

or DataFrame. The missing value sentinel used will be chosen
based on the dtype.
Example
Calculations With Missing Data
Missing values propagate through arithmetic operations
between pandas objects.

When summing data, NA values or empty data will be treated

as zero.
When taking the product, NA values or empty data will be
treated as 1.

Cumulative methods like cumsum() and cumprod() ignore NA

values by default preserve them in the result. This behavior
can be changed with skipna
Dropping Missing Data
dropna() drop a rows or columns with missing data.
Filling Missing Data
Filling by value
fillna() replaces NA values with non-NA data.
Replace NA with a scalar value
Fill gaps forward or backward
Boolean Indexing
Select rows where df.A is greater than 0.
Boolean Indexing

Using isin() method for filtering:

Stats
Operations in general exclude missing data.
Calculate the mean value for each column:
User Defined Functions
DataFrame.agg() and DataFrame.transform() applies a user
defined function that reduces or broadcasts its result
respectively.
Summarizing Data: describe
There is a convenient describe() function which computes a
variety of summary statistics about a Series or the columns of
a DataFrame (excluding NAs of course):
Index Of Min/Max Values
The idxmin() and idxmax() functions on Series and DataFrame
compute the index labels with the minimum and maximum
corresponding values:
Value Counts (Histogramming) / Mode
The value_counts() Series method computes a histogram of a 1D
array of values. It can also be used as a function on regular
arrays:
Value Counts (Histogramming) / Mode

The value_counts() method can be used to count combinations

across multiple columns.
String Methods
Series and Index are equipped with a set of string processing
methods that make it easy to operate on each element of the
array. Perhaps most importantly, these methods exclude
missing/NA values automatically. These are accessed via the
str attribute and generally have names matching the
equivalent (scalar) built-in string methods:
String Methods
Merge, Join, Concatenate
• concat() :
The concat() function concatenates an arbitrary amount of
Series or DataFrame objects along an axis while
performing optional set logic (union or intersection) of the
indexes on the other axes. Like numpy.concatenate, concat()
takes a list or dict of homogeneously-typed objects and
concatenates them.
Merge, Join, Concatenate
• Joining logic of the resulting axis
The join keyword specifies how to handle axis values that don’t
exist in the first DataFrame.
join='outer' takes the union of all axis values
Merge, Join, Concatenate

• merge():
merge() performs join operations similar to relational databases like SQL.

merge() implements common SQL style joining operations.

one-to-one: joining two DataFrame objects on their indexes which must
contain unique values.
many-to-one: joining a unique index to one or more columns in a
different DataFrame.
many-to-many : joining columns on columns.
EXAMPLE
DataFrame.join()
DataFrame.join() combines the columns of multiple, potentially differently-
indexed DataFrame into a single result DataFrame.

04-Data Manipulation With Pandas
No ratings yet
04-Data Manipulation With Pandas
28 pages
Pandas
No ratings yet
Pandas
63 pages
Pandas Data Analytics
No ratings yet
Pandas Data Analytics
61 pages
DataFrames Continued
No ratings yet
DataFrames Continued
9 pages
Pandas
No ratings yet
Pandas
29 pages
Pandas AI ML Python Software Engineering
No ratings yet
Pandas AI ML Python Software Engineering
63 pages
Notes - EDA-Unit2
No ratings yet
Notes - EDA-Unit2
43 pages
Introduction To Pandas in Data Analytics
No ratings yet
Introduction To Pandas in Data Analytics
12 pages
Python Pandas DataFrame Guide
100% (2)
Python Pandas DataFrame Guide
23 pages
On Data Handling Using Pandas-I
100% (2)
On Data Handling Using Pandas-I
63 pages
The Pandas Series Object-Print
No ratings yet
The Pandas Series Object-Print
16 pages
1 Data Handling Using Pandas 1
No ratings yet
1 Data Handling Using Pandas 1
63 pages
Chapter 2 - Python Pandas II
No ratings yet
Chapter 2 - Python Pandas II
71 pages
Unit3 - 3) Pandas - Ipynb - Colab
No ratings yet
Unit3 - 3) Pandas - Ipynb - Colab
11 pages
Chapter 2 Python Pandas - II
No ratings yet
Chapter 2 Python Pandas - II
19 pages
Pandas
No ratings yet
Pandas
49 pages
Introduction to Pandas Library
No ratings yet
Introduction to Pandas Library
31 pages
Pandas: Import
100% (1)
Pandas: Import
13 pages
Pandas - Series - Short - Notes
100% (1)
Pandas - Series - Short - Notes
7 pages
Series and Pandas Methods
No ratings yet
Series and Pandas Methods
5 pages
MLL Ip Xii
No ratings yet
MLL Ip Xii
22 pages
Pandas Series and DataFrames Guide
100% (2)
Pandas Series and DataFrames Guide
64 pages
1 Data Handlinng Using Pandas-I
No ratings yet
1 Data Handlinng Using Pandas-I
46 pages
01-Numpy & Pandas
No ratings yet
01-Numpy & Pandas
69 pages
Class Xii Information Practices PPT On Data Handling Using Pandas-I
No ratings yet
Class Xii Information Practices PPT On Data Handling Using Pandas-I
64 pages
Pandas
No ratings yet
Pandas
25 pages
Practice 1
No ratings yet
Practice 1
45 pages
Data Handlinng Using Pandas-I
No ratings yet
Data Handlinng Using Pandas-I
46 pages
Pandas DataFrame Notes
No ratings yet
Pandas DataFrame Notes
13 pages
Dev Lab Record
No ratings yet
Dev Lab Record
21 pages
Unit III - Pandas - Data Manipulation Using Python
No ratings yet
Unit III - Pandas - Data Manipulation Using Python
15 pages
Rajni Ip File Final
No ratings yet
Rajni Ip File Final
42 pages
Mastering Pandas: DataFrame Operations
100% (2)
Mastering Pandas: DataFrame Operations
33 pages
Pandas Data Structures and Operations
No ratings yet
Pandas Data Structures and Operations
36 pages
Python 2.1.2
No ratings yet
Python 2.1.2
7 pages
DAP Module4 Notes
No ratings yet
DAP Module4 Notes
17 pages
Ip Work
No ratings yet
Ip Work
6 pages
Pandas Summarized Visually in 8
100% (2)
Pandas Summarized Visually in 8
8 pages
Final Formatted After Iloc Loc
No ratings yet
Final Formatted After Iloc Loc
34 pages
Traversing Dataframe Elements Using: Iterrows, Iteritems and Itertuples
No ratings yet
Traversing Dataframe Elements Using: Iterrows, Iteritems and Itertuples
8 pages
Essential Pandas DataFrame Guide
No ratings yet
Essential Pandas DataFrame Guide
9 pages
Pandas Data Manipulation Techniques
No ratings yet
Pandas Data Manipulation Techniques
82 pages
Pandas DataFrame Basics Guide
No ratings yet
Pandas DataFrame Basics Guide
32 pages
Pandas Worksheets ALL
100% (1)
Pandas Worksheets ALL
8 pages
05getting Started With Pandas
No ratings yet
05getting Started With Pandas
44 pages
Pandas For Machine Learning: Acadview
No ratings yet
Pandas For Machine Learning: Acadview
18 pages
Chai Time Data Science Lab 7 Guide
No ratings yet
Chai Time Data Science Lab 7 Guide
5 pages
Pandas
No ratings yet
Pandas
13 pages
Python & Pandas for Beginners
No ratings yet
Python & Pandas for Beginners
29 pages
All Document Reader 1715619870900
No ratings yet
All Document Reader 1715619870900
6 pages
Session2-DM Using Pandas
No ratings yet
Session2-DM Using Pandas
51 pages
Pandas & Numpy
No ratings yet
Pandas & Numpy
32 pages
Data Handlinng Using Pandas
No ratings yet
Data Handlinng Using Pandas
46 pages
Unit 4 Fod
100% (1)
Unit 4 Fod
21 pages
Chapter - 4 Data Analysis With Pandas
No ratings yet
Chapter - 4 Data Analysis With Pandas
60 pages
Pandas Data Analysis Handbook
No ratings yet
Pandas Data Analysis Handbook
55 pages
Lab 9
No ratings yet
Lab 9
9 pages
Questions
No ratings yet
Questions
25 pages
Pizza Sales Queries
No ratings yet
Pizza Sales Queries
4 pages
Car Project
No ratings yet
Car Project
2 pages
Cervix Cancer
No ratings yet
Cervix Cancer
3 pages
SSC CGL Tier 1 Question Paper English 26.09.2024 12.30 PM 01.30 PM
No ratings yet
SSC CGL Tier 1 Question Paper English 26.09.2024 12.30 PM 01.30 PM
39 pages
SSC CGL Tier 1 Question Paper - 24.07.2023 - 11.45 AM 12.45 PM
No ratings yet
SSC CGL Tier 1 Question Paper - 24.07.2023 - 11.45 AM 12.45 PM
36 pages
SSC CGL Tier 1 Question Paper - 17.07.2023 - 2.30 PM 3.30 PM
No ratings yet
SSC CGL Tier 1 Question Paper - 17.07.2023 - 2.30 PM 3.30 PM
33 pages
SSC CGL Tier 1 Question Paper - 14.07.2023 - 5.15 PM 6.15 PM
No ratings yet
SSC CGL Tier 1 Question Paper - 14.07.2023 - 5.15 PM 6.15 PM
36 pages
SSC CGL Question Paper 03 March 2020 Shift 2 English
No ratings yet
SSC CGL Question Paper 03 March 2020 Shift 2 English
28 pages
SSC CGL Question Paper 07 March 2020 Shift 3 English
No ratings yet
SSC CGL Question Paper 07 March 2020 Shift 3 English
34 pages
SSC CGL Question Paper 03 March 2020 Shift 3 English
No ratings yet
SSC CGL Question Paper 03 March 2020 Shift 3 English
29 pages
SSC CGL Tier 1 Question Paper - 14.07.2023 - 11.45 AM 12.45 PM
No ratings yet
SSC CGL Tier 1 Question Paper - 14.07.2023 - 11.45 AM 12.45 PM
30 pages
SSC CGL Question Paper 04 March 2020 Shift 1 English
No ratings yet
SSC CGL Question Paper 04 March 2020 Shift 1 English
34 pages
SSC CGL Question Paper 12 June 2019 Shift 3 English
No ratings yet
SSC CGL Question Paper 12 June 2019 Shift 3 English
26 pages
SSC CGL Question Paper 04 March 2020 Shift 2 English
No ratings yet
SSC CGL Question Paper 04 March 2020 Shift 2 English
32 pages
SSC CGL Question Paper 11 June 2019 Shift 2 English
No ratings yet
SSC CGL Question Paper 11 June 2019 Shift 2 English
28 pages
SSC CGL Question Paper 04 June 2019 Shift 2 English
No ratings yet
SSC CGL Question Paper 04 June 2019 Shift 2 English
26 pages
NFC Payment Security Risks
No ratings yet
NFC Payment Security Risks
12 pages
OSPF and ACL Configuration Scenarios
No ratings yet
OSPF and ACL Configuration Scenarios
4 pages
What Is Game Development
No ratings yet
What Is Game Development
8 pages
AWK Commands for Campaign Data Analysis
No ratings yet
AWK Commands for Campaign Data Analysis
4 pages
GE Fanuc Automation: Panel I Connection and Maintenance Manual
No ratings yet
GE Fanuc Automation: Panel I Connection and Maintenance Manual
188 pages
3SP Wspeculation
No ratings yet
3SP Wspeculation
10 pages
TRACXN REPORT - DRONES (PDFDrive)
No ratings yet
TRACXN REPORT - DRONES (PDFDrive)
130 pages
Asm Part1 PBS BH00610
No ratings yet
Asm Part1 PBS BH00610
48 pages
Honeywell UOP CRCS
No ratings yet
Honeywell UOP CRCS
2 pages
Experiment-1 Program To Print Hello World
No ratings yet
Experiment-1 Program To Print Hello World
16 pages
Threadmentor: A Pedagogical Tool For Multithreaded Programming
No ratings yet
Threadmentor: A Pedagogical Tool For Multithreaded Programming
30 pages
Dokumen Wajib Dalam ISO 13485
No ratings yet
Dokumen Wajib Dalam ISO 13485
2 pages
OS Lab 03
No ratings yet
OS Lab 03
9 pages
Networking Basics: Types & Components
No ratings yet
Networking Basics: Types & Components
11 pages
Resume 1759575688479
No ratings yet
Resume 1759575688479
2 pages
Indian Banks Cybercrime Losses Report
No ratings yet
Indian Banks Cybercrime Losses Report
17 pages
Smartax Ma5800
No ratings yet
Smartax Ma5800
2 pages
Reconfigurable Computing Hardware
No ratings yet
Reconfigurable Computing Hardware
32 pages
Manish Kumar
No ratings yet
Manish Kumar
4 pages
Next.js App Router Guide for Devs
No ratings yet
Next.js App Router Guide for Devs
11 pages
The Ultimate Guide To AD0-E201 Adobe Analytics Developer
No ratings yet
The Ultimate Guide To AD0-E201 Adobe Analytics Developer
2 pages
Industrial Automation Solutions
No ratings yet
Industrial Automation Solutions
9 pages
Microsoft SQL Server IO Internals
No ratings yet
Microsoft SQL Server IO Internals
24 pages
6AV21233MB320AW0 Datasheet en
No ratings yet
6AV21233MB320AW0 Datasheet en
5 pages
Cambridge IGCSE: Information and Communication Technology 0417/03
No ratings yet
Cambridge IGCSE: Information and Communication Technology 0417/03
8 pages
APO Overview
No ratings yet
APO Overview
76 pages
Indexing vs Hashing in DBMS
No ratings yet
Indexing vs Hashing in DBMS
31 pages
13.3.2 Lab - Use Ping and Traceroute To Test Network Connectivity
No ratings yet
13.3.2 Lab - Use Ping and Traceroute To Test Network Connectivity
11 pages
Neonatal Alert Procedure Guide
No ratings yet
Neonatal Alert Procedure Guide
1 page
Intrusion Detection System
No ratings yet
Intrusion Detection System
12 pages

Lecture - 2 Pandas

Uploaded by

Lecture - 2 Pandas

Uploaded by

LECTURE -2

You can insert missing values by simply assigning to a Series

When summing data, NA values or empty data will be treated

Cumulative methods like cumsum() and cumprod() ignore NA

Using isin() method for filtering:

The value_counts() method can be used to count combinations

merge() implements common SQL style joining operations.

You might also like