0% found this document useful (0 votes)

2 views5 pages

? NumPy

The document provides a comprehensive guide on using NumPy and Pandas for data science, covering basics, array operations, statistics, and linear algebra with NumPy, as well as data manipulation techniques in Pandas such as indexing, handling missing data, and merging datasets. It includes examples and practical exercises to reinforce learning, along with a real-world application in Indian real estate. The guide serves as a reference for beginners to advanced users in data analysis and machine learning.

Uploaded by

Dhruv dwivedi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views5 pages

? NumPy

Uploaded by

Dhruv dwivedi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

NumPy & Pandas for Data Science: Beginner → Advanced

1. NumPy (Numerical Python)

Basics

• Why: NumPy provides fast, memory-efficient arrays for numerical computation.

• When: Use when working with large datasets or mathematical operations.

• What: Arrays, vectorized operations, broadcasting.

Example: Array creation

import numpy as np

arr = [Link]([1, 2, 3, 4])

print(arr) # [1 2 3 4]

Array Operations

• Why: Vectorized operations are faster than Python loops.

• When: For element-wise math, statistics, or transformations.

• What: Addition, multiplication, broadcasting.

Example: Broadcasting

a = [Link]([1, 2, 3])

b=2

print(a * b) # [2 4 6]

Statistics with NumPy

• Why: Quick descriptive stats.

• When: Summarizing data before modeling.

• What: Mean, median, variance, correlation.

Example:

data = [Link]([10, 20, 30, 40, 50])

print([Link](data)) # 30.0

print([Link](data)) # 200.0

Linear Algebra

• Why: Essential for ML (matrix ops, eigenvalues).

• When: Feature transformations, PCA, regression.

• What: Dot product, inverse, eigen decomposition.

Example:

A = [Link]([[1, 2], [3, 4]])

B = [Link]([[5, 6], [7, 8]])

print([Link](A, B))

2. Pandas (Data Analysis Library)

Basics

• Why: Pandas is built for tabular data (like Excel).

• When: Use for data cleaning, wrangling, and analysis.

• What: Series, DataFrames.

Example:

import pandas as pd

df = [Link]({

'City': ['Delhi', 'Mumbai', 'Bangalore'],

'Price': [100000, 150000, 120000]})

print(df)

Indexing & Selection

• Why: To access subsets of data.

• When: Filtering rows/columns.

• What: .loc, .iloc, boolean indexing.

Example:

print([Link][0, 'City']) # Delhi

print(df[df['Price'] > 120000])

Handling Missing Data

• Why: Real-world data is messy.

• When: Before modeling.

• What: isnull(), fillna(), dropna().

Example:

df['Price'].fillna(df['Price'].mean(), inplace=True)

Grouping & Aggregation

• Why: Summarize data by categories.

• When: Business insights, feature engineering.

• What: groupby(), agg().

Example:

[Link]('City')['Price'].mean()

Merging & Joining

• Why: Combine multiple datasets.

• When: Enrich data with external sources.

• What: merge(), concat().

Example:

df1 = [Link]({'ID': [1,2], 'Name': ['A','B']})

df2 = [Link]({'ID': [1,2], 'Score': [90,80]})

merged = [Link](df1, df2, on='ID')

Pivot Tables

• Why: Multi-dimensional summaries.

• When: Cross-tab analysis.

• What: pivot_table().

Example:

df.pivot_table(values='Price', index='City', aggfunc='mean')

Time Series

• Why: Many datasets are time-based.

• When: Forecasting, trend analysis.

• What: to_datetime(), resampling.

Example:

df['Date'] = pd.to_datetime(['2023-01-01','2023-01-02','2023-01-03'])

df.set_index('Date').resample('D').mean()

3. Statistical Techniques in Pandas + NumPy

Technique Why When Example

Summarize numeric
Mean/Median/Mode Central tendency df['Price'].mean()
data

Variance/Std Dev Spread of data Risk analysis [Link](df['Price'])

Relationship
Correlation Feature selection [Link]()
strength

Statistical
Hypothesis Testing A/B testing [Link].ttest_ind()
inference

Normalization Scale features ML preprocessing (x - mean)/std

Handle
Encoding ML models pd.get_dummies(df['City'])
categories
4. Real-World Example (Indian Real Estate)

• Problem: Dataset has Carpet Area, but not Super Area.

• Solution: Estimate using loading factor.

def estimate_super_area(carpet_area, loading_factor=0.25):

return carpet_area * (1 + loading_factor)

df['SuperArea'] = df['CarpetArea'].apply(estimate_super_area)

5. Practice Exercises

1. Load a CSV of real estate data.

2. Clean missing values in Price using median.

3. Extract floor number from a column like "5 out of 10".

4. Group by City and compute average Price.

5. Encode Furnishing as one-hot vectors.

6. Normalize Price for ML preprocessing.

This is essentially your all-in-one guide. You can copy this into a Jupyter Notebook
and run each block step by step.

Would you like me to expand this into a structured workbook with exercises +
solutions (like a self-study course), or keep it as a compact reference guide?

NumPy and Pandas Tutorial
No ratings yet
NumPy and Pandas Tutorial
8 pages
NumPy and Pandas
No ratings yet
NumPy and Pandas
12 pages
Report
No ratings yet
Report
18 pages
Usage of NumPy For Numerical Data in Detail
No ratings yet
Usage of NumPy For Numerical Data in Detail
52 pages
Unit 3 (FODS)
No ratings yet
Unit 3 (FODS)
34 pages
Python Data Analysis Cheat Sheet
100% (3)
Python Data Analysis Cheat Sheet
9 pages
Python For Data Science
No ratings yet
Python For Data Science
4 pages
Data Handling Module
No ratings yet
Data Handling Module
10 pages
Cheat Sheet
No ratings yet
Cheat Sheet
12 pages
Learning NumPy and Pandas
No ratings yet
Learning NumPy and Pandas
3 pages
Pandas For Machine Learning
No ratings yet
Pandas For Machine Learning
10 pages
Num Py Pandas Interview Qa
No ratings yet
Num Py Pandas Interview Qa
7 pages
Cheat Sheet: Python For Data Science
No ratings yet
Cheat Sheet: Python For Data Science
4 pages
Cheat Sheet: Python For Data Science
No ratings yet
Cheat Sheet: Python For Data Science
4 pages
Pandas Research
No ratings yet
Pandas Research
14 pages
Day 3
No ratings yet
Day 3
27 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Pandas & PyNumS Essentials
No ratings yet
Pandas & PyNumS Essentials
10 pages
Learninng Plan
No ratings yet
Learninng Plan
6 pages
FDS Module 2 Notes
No ratings yet
FDS Module 2 Notes
24 pages
Python Libraries
No ratings yet
Python Libraries
6 pages
Unit III - Notes
No ratings yet
Unit III - Notes
12 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
Wa0005.
No ratings yet
Wa0005.
29 pages
Datascience
No ratings yet
Datascience
26 pages
Day 1-3 Basics
No ratings yet
Day 1-3 Basics
30 pages
NumPy and Pandas Step
No ratings yet
NumPy and Pandas Step
9 pages
Python
No ratings yet
Python
32 pages
Mdad - Numpy ML
No ratings yet
Mdad - Numpy ML
85 pages
Unit 4 Fod
100% (1)
Unit 4 Fod
21 pages
Drop Duplicates in Pandas and NumPy
No ratings yet
Drop Duplicates in Pandas and NumPy
43 pages
FDS Record-1-4
No ratings yet
FDS Record-1-4
18 pages
FDS Exp4
No ratings yet
FDS Exp4
5 pages
NumPy & Pandas
No ratings yet
NumPy & Pandas
27 pages
ML Sample Programs
No ratings yet
ML Sample Programs
7 pages
Attachment 3 Python For Data Analysis Lyst9850
No ratings yet
Attachment 3 Python For Data Analysis Lyst9850
31 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Data Wrangling With Python and Pandas
No ratings yet
Data Wrangling With Python and Pandas
7 pages
Pandas Library: Data Manipulation & Analysis Guide
No ratings yet
Pandas Library: Data Manipulation & Analysis Guide
9 pages
Pandas Guide for Data Science
No ratings yet
Pandas Guide for Data Science
42 pages
Python Libraries for Statistical Analysis
No ratings yet
Python Libraries for Statistical Analysis
40 pages
Dav 2 Unit
No ratings yet
Dav 2 Unit
55 pages
Python Interviews
No ratings yet
Python Interviews
154 pages
Python Pandas
No ratings yet
Python Pandas
21 pages
2A - Python+Data Analysis For Pyhton2 v2
No ratings yet
2A - Python+Data Analysis For Pyhton2 v2
38 pages
Eda Code Snippets
No ratings yet
Eda Code Snippets
17 pages
Advanced Python & Data Science Guide
No ratings yet
Advanced Python & Data Science Guide
42 pages
Introduction to Pandas DataFrames
No ratings yet
Introduction to Pandas DataFrames
25 pages
DS Final
No ratings yet
DS Final
46 pages
Pandas Notes Design
No ratings yet
Pandas Notes Design
5 pages
Course - Introduction To Data Science (SD211105)
No ratings yet
Course - Introduction To Data Science (SD211105)
10 pages
Pandas Notes
No ratings yet
Pandas Notes
20 pages
Introduction to Pandas Library
No ratings yet
Introduction to Pandas Library
31 pages
Python Unit IV
No ratings yet
Python Unit IV
12 pages
Python Pandas Tutorial For Beginners
100% (1)
Python Pandas Tutorial For Beginners
203 pages
Pandas Cheat Sheet for Data Science
No ratings yet
Pandas Cheat Sheet for Data Science
5 pages
CSE List 1 Project - Exhibition - Judgement - Sheet-2025
No ratings yet
CSE List 1 Project - Exhibition - Judgement - Sheet-2025
4 pages
AcaLit Workshop Schedule - 2024 - MR LT Malatji
No ratings yet
AcaLit Workshop Schedule - 2024 - MR LT Malatji
13 pages
Groot, 1996
No ratings yet
Groot, 1996
13 pages
Syllabus: B.Tech
No ratings yet
Syllabus: B.Tech
176 pages
Resume Noncore Compressed PDF
No ratings yet
Resume Noncore Compressed PDF
1 page
Internal Audit Standards: Issued by The Institute of Chartered Accountants of India
No ratings yet
Internal Audit Standards: Issued by The Institute of Chartered Accountants of India
15 pages
Apley and Solomon S System of and 10th Orthopaedics Trauma Edition by Ashley
No ratings yet
Apley and Solomon S System of and 10th Orthopaedics Trauma Edition by Ashley
338 pages
OMD Interview Questions Answers Guide
No ratings yet
OMD Interview Questions Answers Guide
12 pages
Enrollment Guidelines 2025-26
No ratings yet
Enrollment Guidelines 2025-26
30 pages
Philippine History Study Guide
No ratings yet
Philippine History Study Guide
5 pages
D7 Quality Control Tests For Suspension & Emulsions Finalized Ok
100% (4)
D7 Quality Control Tests For Suspension & Emulsions Finalized Ok
36 pages
If It Bleeds
No ratings yet
If It Bleeds
2 pages
Data Conversion Quiz
No ratings yet
Data Conversion Quiz
5 pages
Aryabhata: Pioneer of Mathematics
No ratings yet
Aryabhata: Pioneer of Mathematics
7 pages
Class-Vth S.St. Half Yearly
No ratings yet
Class-Vth S.St. Half Yearly
2 pages
Lean Lab
No ratings yet
Lean Lab
36 pages
Mcm301 Final Term Solved Mcqs by Junaid
No ratings yet
Mcm301 Final Term Solved Mcqs by Junaid
27 pages
Exam4 Solutions
No ratings yet
Exam4 Solutions
8 pages
Related Theories of Learning (Psychological Orientations)
No ratings yet
Related Theories of Learning (Psychological Orientations)
4 pages
Mtoto Fund Profile - Final
No ratings yet
Mtoto Fund Profile - Final
7 pages
LABEX2
No ratings yet
LABEX2
49 pages
Grade 5 Science Lesson Plan: Electromagnets
No ratings yet
Grade 5 Science Lesson Plan: Electromagnets
8 pages
Physics 3 - Mass and Weight
No ratings yet
Physics 3 - Mass and Weight
19 pages
Group1-Public Speaking Etiquette
No ratings yet
Group1-Public Speaking Etiquette
15 pages
Graphene-Based Solar Cell Development
No ratings yet
Graphene-Based Solar Cell Development
104 pages
Strategic Talent Management A Review and Research
No ratings yet
Strategic Talent Management A Review and Research
38 pages
The Grande Jatte: A Modern Analysis
No ratings yet
The Grande Jatte: A Modern Analysis
13 pages
Apcomin ROZC Primer
No ratings yet
Apcomin ROZC Primer
3 pages
Worksheet (Chapter-3 - Matrices)
No ratings yet
Worksheet (Chapter-3 - Matrices)
4 pages
Multi-Purpose River Projects in Africa
No ratings yet
Multi-Purpose River Projects in Africa
3 pages