0% found this document useful (0 votes)

21 views4 pages

Practical 5 Missing Values

Practical_5_Missing_Values : DSV

Uploaded by

vhoratanvir1610

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

21 views4 pages

Practical 5 Missing Values

Practical_5_Missing_Values : DSV

Uploaded by

vhoratanvir1610

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

DATA SCIENCE AND

VISUALIZATION
12202080501060
202046707

Practical 5:
Implement a method to handle missing values for gender and marks. (Using Practical 3
dataset)

Introduction:
In real-world datasets, missing values are very common and need to be handled properly
before performing any analysis or machine learning tasks. Missing values in categorical
variables such as Gender can be handled using the Mode, while missing values in
numerical variables such as Marks can be imputed using measures like Mean, Median, or
Mode. In this practical, we use the mean for handling missing marks and the mode for
handling missing gender values.

# Import required libraries

import numpy as np
import pandas as pd
import sklearn

# Load dataset

df = pd.read_csv('/content/drive/MyDrive/DSV /Dataset_(12202080501060)/

student_dataset_with_missing_values.c’)

df.info()

GCET
17
DATA SCIENCE AND
VISUALIZATION
12202080501060
202046707

x = df.iloc[:, :-1].values

y = df.iloc[:,3].values

# Handle missing values in marks using Mean df['Sem1_Math'] =

df['Sem1_Math'].fillna(df['Sem1_Math'].mean()) df['Sem1_Science'] =
df['Sem1_Science'].fillna(df['Sem1_Science'].mean())
df['Sem1_English'] =
df['Sem1_English'].fillna(df['Sem1_English'].mean())
df['Sem1_History'] =
df['Sem1_History'].fillna(df['Sem1_History'].mean()) df['Sem1_CS'] =
df['Sem1_CS'].fillna(df['Sem1_CS'].mean()) df['Sem2_Math'] =
df['Sem2_Math'].fillna(df['Sem2_Math'].mean()) df['Sem2_Science'] =
df['Sem2_Science'].fillna(df['Sem2_Science'].mean())
df['Sem2_English'] =
df['Sem2_English'].fillna(df['Sem2_English'].mean())
df['Sem2_History'] =
df['Sem2_History'].fillna(df['Sem2_History'].mean()) df['Sem2_CS'] =
df['Sem2_CS'].fillna(df['Sem2_CS'].mean()) df['Sem3_Math'] =
df['Sem3_Math'].fillna(df['Sem3_Math'].mean()) df['Sem3_Science'] =
df['Sem3_Science'].fillna(df['Sem3_Science'].mean())
df['Sem3_English'] =
df['Sem3_English'].fillna(df['Sem3_English'].mean())
df['Sem3_History'] =
GCET
18
DATA SCIENCE AND
VISUALIZATION
12202080501060
202046707

df['Sem3_History'].fillna(df['Sem3_History'].mean()) df['Sem3_CS'] =
df['Sem3_CS'].fillna(df['Sem3_CS'].mean()) df['Sem4_Math'] =
df['Sem4_Math'].fillna(df['Sem4_Math'].mean()) df['Sem4_Science'] =
df['Sem4_Science'].fillna(df['Sem4_Science'].mean())
df['Sem4_English'] =
df['Sem4_English'].fillna(df['Sem4_English'].mean())
df['Sem4_History'] =
df['Sem4_History'].fillna(df['Sem4_History'].mean()) df['Sem4_CS'] =
df['Sem4_CS'].fillna(df['Sem4_CS'].mean())

# Handle missing values in Gender using Mode

df['Gender'] = df['Gender'].fillna(df['Gender'].mode()[0])

from sklearn.impute import SimpleImputer

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

y = df.iloc[:,3].values

y_reshaped = y.reshape(-1, 1)

imputer.fit(y_reshaped)

y_imputed = imputer.transform(y_reshaped)

y_imputed

GCET
19
DATA SCIENCE AND
VISUALIZATION
12202080501060
202046707

Important Points:
- Missing values can introduce bias or reduce the quality of analysis.
- For numerical data (marks), mean imputation ensures that overall distribution is less
disturbed. - For categorical data (gender), mode imputation is preferred as it maintains
majority class consistency.
- Sklearn and Pandas provide multiple imputation techniques.

Conclusion:
In this practical, missing values in the student dataset were successfully handled. We used
mean imputation for numerical marks and mode imputation for categorical gender data.
Handling missing values is an essential preprocessing step to ensure reliable and accurate
analysis in data science and machine learning.
GCET
20

Data Wrangling, 2
No ratings yet
Data Wrangling, 2
4 pages
DSBDL Pract 2
No ratings yet
DSBDL Pract 2
6 pages
Unit-1 AI ML PYTHON - Jupyter Notebook
No ratings yet
Unit-1 AI ML PYTHON - Jupyter Notebook
10 pages
DAV Prac BHR
No ratings yet
DAV Prac BHR
22 pages
Project Work Info
No ratings yet
Project Work Info
20 pages
Exp-12 Iaiml
No ratings yet
Exp-12 Iaiml
13 pages
LP II Practical
No ratings yet
LP II Practical
5 pages
Practice Assignment 2
No ratings yet
Practice Assignment 2
1 page
Data Wrangling 2
No ratings yet
Data Wrangling 2
4 pages
Pandas Tutorial1 - Informatics
No ratings yet
Pandas Tutorial1 - Informatics
43 pages
A09Ass02 - Jupyter Notebook
No ratings yet
A09Ass02 - Jupyter Notebook
11 pages
Aiclass
No ratings yet
Aiclass
9 pages
DA Lab Manual r22
No ratings yet
DA Lab Manual r22
31 pages
Lab 3 & 4
No ratings yet
Lab 3 & 4
10 pages
Week2 Lab
No ratings yet
Week2 Lab
8 pages
Student Data Analysis in Colab
No ratings yet
Student Data Analysis in Colab
3 pages
Question 4
No ratings yet
Question 4
1 page
Data Preprocessing - Ipynb - Colaboratory
No ratings yet
Data Preprocessing - Ipynb - Colaboratory
7 pages
Experiment 2
No ratings yet
Experiment 2
2 pages
Pandas Data Handling Guide
No ratings yet
Pandas Data Handling Guide
42 pages
Dealing With Missing Data - Jupyter Notebook
No ratings yet
Dealing With Missing Data - Jupyter Notebook
9 pages
Student Data Analysis in Python
No ratings yet
Student Data Analysis in Python
3 pages
Davp Pyq 2023 Solution
No ratings yet
Davp Pyq 2023 Solution
15 pages
DR T V V Pavan Kumar-Assignent 2
No ratings yet
DR T V V Pavan Kumar-Assignent 2
4 pages
EX6 Python
No ratings yet
EX6 Python
6 pages
Manisadav
No ratings yet
Manisadav
29 pages
Logistic Regression Analysis of Student Data
No ratings yet
Logistic Regression Analysis of Student Data
3 pages
Lab 2 - Basic Statistical Analysis
No ratings yet
Lab 2 - Basic Statistical Analysis
7 pages
Python BATCH 11 Voice
No ratings yet
Python BATCH 11 Voice
13 pages
Student Performance Analysis
No ratings yet
Student Performance Analysis
16 pages
Experiment 5
No ratings yet
Experiment 5
13 pages
Data Science Practical Book - Ipynb
No ratings yet
Data Science Practical Book - Ipynb
21 pages
Assignment 2 (Set B)
No ratings yet
Assignment 2 (Set B)
5 pages
PS ML Lect 5 9 Unit 2
No ratings yet
PS ML Lect 5 9 Unit 2
114 pages
DAV Practicle File
No ratings yet
DAV Practicle File
28 pages
Ass-2 Ds
No ratings yet
Ass-2 Ds
29 pages
DAV Guidelines
No ratings yet
DAV Guidelines
4 pages
DR T V V Pavan Kumar - Assign - 2
No ratings yet
DR T V V Pavan Kumar - Assign - 2
5 pages
First 4
No ratings yet
First 4
11 pages
CVP PreBoard1 XII IP December 2023 AK
No ratings yet
CVP PreBoard1 XII IP December 2023 AK
11 pages
IP XII U1 Ch3 DataHandling (DataFrame) Final
No ratings yet
IP XII U1 Ch3 DataHandling (DataFrame) Final
45 pages
Assignment 2 - Jupyter Notebook
No ratings yet
Assignment 2 - Jupyter Notebook
8 pages
Leip 103
No ratings yet
Leip 103
42 pages
Info Practical
No ratings yet
Info Practical
56 pages
Missing Data
No ratings yet
Missing Data
14 pages
Advanced Data Handling with Pandas
No ratings yet
Advanced Data Handling with Pandas
42 pages
Missing Data
No ratings yet
Missing Data
25 pages
PW2 DataCleaning
No ratings yet
PW2 DataCleaning
6 pages
IP12 Gargi
No ratings yet
IP12 Gargi
32 pages
DAV Practical
No ratings yet
DAV Practical
12 pages
Assignment 4
No ratings yet
Assignment 4
5 pages
Practical No-2
No ratings yet
Practical No-2
4 pages
Academic Performance Data Wrangling
No ratings yet
Academic Performance Data Wrangling
9 pages
Pandas: Data Cleaning Essentials
No ratings yet
Pandas: Data Cleaning Essentials
6 pages
Samarth Raghav
No ratings yet
Samarth Raghav
15 pages
Practical 6 Encoding
No ratings yet
Practical 6 Encoding
2 pages
Practical 11
No ratings yet
Practical 11
11 pages
Practical-8 BDA
No ratings yet
Practical-8 BDA
17 pages
Round01 MernStack25
No ratings yet
Round01 MernStack25
4 pages
Practical-9 BDA
No ratings yet
Practical-9 BDA
20 pages
DSA Notes (Codewithtanvir)
No ratings yet
DSA Notes (Codewithtanvir)
8 pages
Practical 6 Encoding (Tanvir)
No ratings yet
Practical 6 Encoding (Tanvir)
5 pages
Practical 10
No ratings yet
Practical 10
7 pages
Practical-9 MAD
No ratings yet
Practical-9 MAD
7 pages
Practical 8 GRU
No ratings yet
Practical 8 GRU
3 pages
Practical2 Perceptron DL Formatted
No ratings yet
Practical2 Perceptron DL Formatted
5 pages
DL3 (1) Tanvir
No ratings yet
DL3 (1) Tanvir
6 pages
Practical-6 MAD
No ratings yet
Practical-6 MAD
8 pages
Practical 7 LSTM
No ratings yet
Practical 7 LSTM
2 pages
DL Prac
No ratings yet
DL Prac
10 pages
Practical-7 MAD
No ratings yet
Practical-7 MAD
4 pages
DLA - Lab Manual Index - Sem-7-IT
No ratings yet
DLA - Lab Manual Index - Sem-7-IT
4 pages
Lab Manual
No ratings yet
Lab Manual
11 pages
DLA - Lab Manual Index - Sem-7-IT
No ratings yet
DLA - Lab Manual Index - Sem-7-IT
4 pages
Practical 5
No ratings yet
Practical 5
13 pages
Practical 2 Report
No ratings yet
Practical 2 Report
5 pages
Student Data Analysis Report
No ratings yet
Student Data Analysis Report
7 pages
DSV Lab Manual Index
No ratings yet
DSV Lab Manual Index
4 pages
Practical 5 ICC
No ratings yet
Practical 5 ICC
15 pages
DL5 and 6th Final (1) Tanvir
No ratings yet
DL5 and 6th Final (1) Tanvir
12 pages
Practical5 (MAD) Tanvir
No ratings yet
Practical5 (MAD) Tanvir
14 pages
DL4Final (1) Tanvir
No ratings yet
DL4Final (1) Tanvir
10 pages
1 Continue...
No ratings yet
1 Continue...
39 pages
Practical4 IaaS Public Cloud
No ratings yet
Practical4 IaaS Public Cloud
19 pages
ICC Unit-2
No ratings yet
ICC Unit-2
75 pages
Financial Analytics Jul Dec 24-1
No ratings yet
Financial Analytics Jul Dec 24-1
181 pages
Data Cleaning Techniques in Data Science
No ratings yet
Data Cleaning Techniques in Data Science
44 pages
Youth Emotion Regulation Factors
No ratings yet
Youth Emotion Regulation Factors
6 pages
KNN Assignment Report
No ratings yet
KNN Assignment Report
3 pages
EDA Unit-3
No ratings yet
EDA Unit-3
31 pages
I Wish I Had (Not) Taken A Gap-Year? The Psychological and Attainment Outcomes of Different Post-School Pathways
No ratings yet
I Wish I Had (Not) Taken A Gap-Year? The Psychological and Attainment Outcomes of Different Post-School Pathways
31 pages
Construct Validation of The Behavior and Instructional Management Scale - ScienceDirect
No ratings yet
Construct Validation of The Behavior and Instructional Management Scale - ScienceDirect
8 pages
Unit-I (Data Analytics)
No ratings yet
Unit-I (Data Analytics)
22 pages
Balduzzi-2019-How To Perform A Meta-Analysis W
No ratings yet
Balduzzi-2019-How To Perform A Meta-Analysis W
8 pages
Development of Economic Abuse Scale
No ratings yet
Development of Economic Abuse Scale
28 pages
What Is A Correlation Matrix?
No ratings yet
What Is A Correlation Matrix?
4 pages
Vanstone, DKK (2015) - MUSEQ
No ratings yet
Vanstone, DKK (2015) - MUSEQ
12 pages
Feature Engineering Basics for ML
No ratings yet
Feature Engineering Basics for ML
33 pages
PedsQL Scoring PDF
100% (1)
PedsQL Scoring PDF
146 pages
Data Science Industrial Training Report
No ratings yet
Data Science Industrial Training Report
35 pages
Chapter 3
No ratings yet
Chapter 3
4 pages
(Ebook PDF) Handbook of Statistical Analysis and Data Mining Applications 2nd Edition Download
100% (5)
(Ebook PDF) Handbook of Statistical Analysis and Data Mining Applications 2nd Edition Download
43 pages
Data Acquisition Cleaning
No ratings yet
Data Acquisition Cleaning
12 pages
X12 ARIMA in NumXL Notes
No ratings yet
X12 ARIMA in NumXL Notes
14 pages
DWM Module 2
No ratings yet
DWM Module 2
111 pages
1 s2.0 S2590123025007066 Main
No ratings yet
1 s2.0 S2590123025007066 Main
16 pages
Data Preprocessing and Cleaning
No ratings yet
Data Preprocessing and Cleaning
6 pages
EDA Question Bank Answers
No ratings yet
EDA Question Bank Answers
24 pages
Probability & Statistics Guide
No ratings yet
Probability & Statistics Guide
51 pages
1 04 Missing Data and Outliers
No ratings yet
1 04 Missing Data and Outliers
16 pages
Ss PPT Presentation
No ratings yet
Ss PPT Presentation
11 pages
Satyam - Explo Project Report 2024-25
No ratings yet
Satyam - Explo Project Report 2024-25
29 pages
Jasina Internship Report
No ratings yet
Jasina Internship Report
14 pages
Meyer Et Al (2009)
No ratings yet
Meyer Et Al (2009)
23 pages
AI Mcqs UNIT 1-3
No ratings yet
AI Mcqs UNIT 1-3
37 pages

Practical 5 Missing Values

Uploaded by

Practical 5 Missing Values

Uploaded by

DATA SCIENCE AND

# Import required libraries

# Handle missing values in marks using Mean df['Sem1_Math'] =

# Handle missing values in Gender using Mode

from sklearn.impute import SimpleImputer

imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

You might also like