0% found this document useful (0 votes)

22 views6 pages

DMML Lab Report 04

This lab report focuses on handling categorical data and feature scaling in a dataset using Python. It includes code examples for value counts of categorical columns, label encoding, one-hot encoding, converting boolean to integer, and feature scaling using MinMaxScaler and RobustScaler. The report is submitted by Fardus Alam for the CSE326 course at Daffodil International University.

Uploaded by

Atick Arman

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

22 views6 pages

DMML Lab Report 04

Uploaded by

Atick Arman

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Lab report

Course code: CSE326

Course Title: Data Mining and Machine Learning Lab
Lab report: 04
Topic: Categorical Data Handling and Feature Scaling.

Submitted To:
Name: Sadman Sadik Khan
Designation: Lecturer
Department: CSE
Daffodil International University

Submitted By:
Name: Fardus Alam
ID: 222-15-6167
Section: 62-G
Department: CSE
Daffodil International University

Submission Date: 15-03-2025

Code: Categorical Columns information
1. categorical_columns = [feature for feature in
df2.columns if df2[feature].dtype == 'O']
2.
3. print("Value Counts for Categorical Columns:")
4. for column in categorical_columns:
5. print("\n")
6. print(df2[column].value_counts())
7.

Output:

Explanation:
This code prints the value counts for each categorical column in df2, showing the frequency of unique
values in those columns. Helps to understand the distribution of categories in each categorical column
of the dataset.
Code: Label Encoding
1. from sklearn.preprocessing import
LabelEncoder 2.
3. le = LabelEncoder()
4. for column in ['gender', 'ever_married', 'Residence_type']:
5. df2[column] = le.fit_transform(df2[column])
6. df2
7.

Output:

Explanation:
This code uses Label Encoding to convert ['gender', 'ever_married', 'Residence_type']
categorical columns in df2 into numeric values.
Keys:
1. from sklearn.preprocessing import LabelEncoder
 Imports LabelEncoder from Scikit-learn.
2. le = LabelEncoder()
 Initializes the label encoder object.
3. for column in ['gender', 'ever_married', 'Residence_type']:
 Loops through all categorical columns in df2.
 df2[column] = le.fit_transform(df2[column]) converts each categorical column into
numeric values using the fit_transform method.
4. df2
 Displays the updated DataFrame with encoded values for all categorical columns.
Purpose:
 Efficiently converts all categorical columns into numeric values, preparing the dataset
for machine learning models.
Code: One Hot Encoding

1. df2 = pd.get_dummies(df2, columns=['work_type',

'smoking_status'], drop_first = True)
2. df2
3.

Output:

Explanation:
This code applies one-hot encoding to the categorical columns work_type and smoking_status,
converting them into numeric form.
Explanation:
 pd.get_dummies(df2, columns=['work_type', 'smoking_status'], drop_first=True)
 Creates dummy variables (one-hot encoding) for work_type and smoking_status.
 pd.get_dummies() return Boolean type data.
 drop_first=True removes the first category from each column to avoid the
dummy variable trap (multicollinearity).
 df2 is updated with the transformed data.

Code: Boolean to Integer

1. bool_col_list = ['work_type_Never_worked', 'work_type_Private',

2. 'work_type_Self-employed', 'work_type_children',
3. 'smoking_status_formerly smoked', 'smoking_status_never
smoked',
4. 'smoking_status_smokes']
5. df2[bool_col_list] =
df2[bool_col_list].astype(int) 6.
7. df2.head()
8.

Output: only converted columns here

Explanation:
This code converts boolean columns (False/True) into integer format (0 / 1) for consistency in numerical
processing.
Explanation:
 bool_col_list → List of one-hot encoded categorical columns.
 df2[bool_col_list] = df2[bool_col_list].astype(int)
 Converts True/False values (if any) into 1/0 integers.
 df2.head() → Displays the first 5 rows of the updated DataFrame.
Purpose:
 Ensures categorical dummy variables are in a consistent numeric format for ML models.

Code : Feature Scaling

1. from sklearn.preprocessing import MinMaxScaler,

RobustScaler 2.
3. scaler = MinMaxScaler()
4. robust = RobustScaler() # for Outliers
5.
6. df2['age'] = scaler.fit_transform(df2[['age']])
7. df2['bmi'] =
scaler.fit_transform(df2[['bmi']]) 8.
9. df2['avg_glucose_level'] =
robust.fit_transform(df2[['avg_glucose_level']
]) 10.
11. df2.head()
12.

Output:

Explanation:
This code normalizes numerical features in df2 using Min-Max Scaling and Robust Scaling.
Explanation:
 MinMaxScaler() → Scales age and bmi between 0 and 1.
 RobustScaler() → Scales avg_glucose_level using median and IQR, making it resistant to
outliers.
 .fit_transform() → Applies the transformation to each feature.
 df2.head() → Displays the first 5 rows of the updated dataset.
Purpose:
Ensures consistent scaling for better model performance while handling outliers in avg_glucose_level

Working With Pre (Rocessing Data Files
No ratings yet
Working With Pre (Rocessing Data Files
4 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
Lecture 5 Encoding
No ratings yet
Lecture 5 Encoding
35 pages
Dealing With Categorical
No ratings yet
Dealing With Categorical
25 pages
ML-Lab05-Data Preprocessing Techniques in Python
No ratings yet
ML-Lab05-Data Preprocessing Techniques in Python
7 pages
7 - InnovatiCS - Categorical Data & Data Transformation
No ratings yet
7 - InnovatiCS - Categorical Data & Data Transformation
20 pages
1
No ratings yet
1
3 pages
Week 10
No ratings yet
Week 10
50 pages
L7 - Categorical Data - Encoding - Preprocessing - NCU
No ratings yet
L7 - Categorical Data - Encoding - Preprocessing - NCU
23 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
003-FIN7790 (Part2)
No ratings yet
003-FIN7790 (Part2)
162 pages
Exp 2 Data Preprocessing - Cleaning The Dataset Obtained From The UCI ML Repository
No ratings yet
Exp 2 Data Preprocessing - Cleaning The Dataset Obtained From The UCI ML Repository
9 pages
Lab Manual 5 Solved 40
No ratings yet
Lab Manual 5 Solved 40
13 pages
Lab 6
No ratings yet
Lab 6
6 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
Exp 6
No ratings yet
Exp 6
9 pages
Week 11 Features Categorical
No ratings yet
Week 11 Features Categorical
15 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
Handling Categorical Variables in Python
No ratings yet
Handling Categorical Variables in Python
8 pages
Train
No ratings yet
Train
17 pages
LAB EXERCISE 2 - Data Preprocessing
No ratings yet
LAB EXERCISE 2 - Data Preprocessing
10 pages
LAB EXERCISE 2 - Data Preprocessing
No ratings yet
LAB EXERCISE 2 - Data Preprocessing
10 pages
Program 1
No ratings yet
Program 1
6 pages
Python Data Science Exam Questions
No ratings yet
Python Data Science Exam Questions
8 pages
What Are Categorical Data Encoding Methods - Binary Encoding
No ratings yet
What Are Categorical Data Encoding Methods - Binary Encoding
14 pages
One-Hot Encoding for Categorical Data
No ratings yet
One-Hot Encoding for Categorical Data
2 pages
Dealing With Categorical Data
No ratings yet
Dealing With Categorical Data
14 pages
EDA - Exploratory Data Analysis
No ratings yet
EDA - Exploratory Data Analysis
16 pages
Project Paarth
No ratings yet
Project Paarth
21 pages
One-Hot Encoding for Categorical Data
No ratings yet
One-Hot Encoding for Categorical Data
4 pages
L1 - Data Pre-Processing & Steps of Building A Model
No ratings yet
L1 - Data Pre-Processing & Steps of Building A Model
30 pages
Parth ML
No ratings yet
Parth ML
24 pages
DM Lab Cycle 2 1
No ratings yet
DM Lab Cycle 2 1
10 pages
Practical 3 - Categorical Feature Engineering
No ratings yet
Practical 3 - Categorical Feature Engineering
6 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Huy
No ratings yet
Huy
11 pages
DLWP Assignment 2
No ratings yet
DLWP Assignment 2
2 pages
Pandas Data Analysis and Wrangling Guide
No ratings yet
Pandas Data Analysis and Wrangling Guide
12 pages
DATA M EXAMS Programation 2
No ratings yet
DATA M EXAMS Programation 2
3 pages
DSBDA Lab Manual24-25
No ratings yet
DSBDA Lab Manual24-25
58 pages
Stroke Prediction
No ratings yet
Stroke Prediction
10 pages
ML Final Prac
No ratings yet
ML Final Prac
47 pages
Dsbda Lab - 1 - 1736243987425
No ratings yet
Dsbda Lab - 1 - 1736243987425
10 pages
Tutorial 2 QB & QP
No ratings yet
Tutorial 2 QB & QP
4 pages
Data Preparation for Machine Learning
No ratings yet
Data Preparation for Machine Learning
45 pages
Categorical Variable Encoding Techniques
No ratings yet
Categorical Variable Encoding Techniques
25 pages
DS 1
No ratings yet
DS 1
20 pages
Machine Learning
No ratings yet
Machine Learning
81 pages
TP4-ML-features Encoding
No ratings yet
TP4-ML-features Encoding
4 pages
FDS Slot 1
No ratings yet
FDS Slot 1
19 pages
Zindi Financial Inclusion Guide
No ratings yet
Zindi Financial Inclusion Guide
12 pages
Categorical Variable Encoding Guide
No ratings yet
Categorical Variable Encoding Guide
21 pages
Openlab 1
No ratings yet
Openlab 1
17 pages
Diabetic Retinopathy Risk Modeling
No ratings yet
Diabetic Retinopathy Risk Modeling
24 pages
Dav End Sem
No ratings yet
Dav End Sem
2 pages
ML Lab Records
No ratings yet
ML Lab Records
101 pages
Internship Report
No ratings yet
Internship Report
23 pages
DMML Lab Report 02
No ratings yet
DMML Lab Report 02
11 pages
Motivation Interview Question For Lithuania - Final
100% (1)
Motivation Interview Question For Lithuania - Final
2 pages
Xerox Benchmarking Strategies Explained
No ratings yet
Xerox Benchmarking Strategies Explained
3 pages
World University of Bangladesh
No ratings yet
World University of Bangladesh
13 pages
Case Study... 1
No ratings yet
Case Study... 1
2 pages
Personal Profile: Atick Arman
No ratings yet
Personal Profile: Atick Arman
2 pages
Enhancing Corporate Relations at Apollo
No ratings yet
Enhancing Corporate Relations at Apollo
14 pages
World University of Bangladesh: Submitted by
No ratings yet
World University of Bangladesh: Submitted by
23 pages
Resume 4
No ratings yet
Resume 4
1 page
Serverstatus VBA Code
No ratings yet
Serverstatus VBA Code
22 pages
Resume: A.Christy Ezabella
No ratings yet
Resume: A.Christy Ezabella
3 pages
JavaScript For Beginners Questions and Answers
No ratings yet
JavaScript For Beginners Questions and Answers
62 pages
Array Lab Assignment Solutions
No ratings yet
Array Lab Assignment Solutions
8 pages
How To: Install Matrikon Opc Simulation Server
No ratings yet
How To: Install Matrikon Opc Simulation Server
4 pages
SPPA-T3000 Distributed Control System
100% (1)
SPPA-T3000 Distributed Control System
9 pages
Abdelrahman Hassan: Software Sales Engineer & Scrum Master
No ratings yet
Abdelrahman Hassan: Software Sales Engineer & Scrum Master
1 page
Java UML Class Diagram Guide
No ratings yet
Java UML Class Diagram Guide
13 pages
MS Access 2010: DBMS Functions & Table Creation
No ratings yet
MS Access 2010: DBMS Functions & Table Creation
3 pages
MySQL Cheatsheet - CodeWithHarry
100% (1)
MySQL Cheatsheet - CodeWithHarry
13 pages
Joel Nguemeta
No ratings yet
Joel Nguemeta
2 pages
OOP Methodology Lab Manual
No ratings yet
OOP Methodology Lab Manual
26 pages
Solved MCQS of 2nd Year Computer Science
No ratings yet
Solved MCQS of 2nd Year Computer Science
6 pages
Unit-2 Software Notes
No ratings yet
Unit-2 Software Notes
22 pages
Oracle 10g SQL Guide
100% (3)
Oracle 10g SQL Guide
252 pages
Project Plan
No ratings yet
Project Plan
11 pages
Faq Udt Integration Tia Portal v12 Sp1 v1 en
No ratings yet
Faq Udt Integration Tia Portal v12 Sp1 v1 en
21 pages
Computer Science Exam Prep
No ratings yet
Computer Science Exam Prep
18 pages
Programmers Guide
No ratings yet
Programmers Guide
39 pages
Java Aat9 Faadil
No ratings yet
Java Aat9 Faadil
7 pages
Nidhipatil CV
No ratings yet
Nidhipatil CV
2 pages
Python Program To Calculate Electricity Bill: If Condition
No ratings yet
Python Program To Calculate Electricity Bill: If Condition
6 pages
Operating System Fundamentals Explained
No ratings yet
Operating System Fundamentals Explained
21 pages
This Study Resource Was: Tutorial 5
No ratings yet
This Study Resource Was: Tutorial 5
5 pages
JBoss WeblogicMigrationGuide
No ratings yet
JBoss WeblogicMigrationGuide
48 pages
SEEBURGER Business Integration Converter Adapter For SAP Exchange Infrastructure
No ratings yet
SEEBURGER Business Integration Converter Adapter For SAP Exchange Infrastructure
12 pages
Generative AI Testing Comprehensive Guide
No ratings yet
Generative AI Testing Comprehensive Guide
29 pages
Understanding Fixed Point Numbers in EE 319K
No ratings yet
Understanding Fixed Point Numbers in EE 319K
15 pages
CNAssignment 2
No ratings yet
CNAssignment 2
4 pages

DMML Lab Report 04

Uploaded by

DMML Lab Report 04

Uploaded by

Lab report

Course code: CSE326

Submission Date: 15-03-2025

1. df2 = pd.get_dummies(df2, columns=['work_type',

Code: Boolean to Integer

1. bool_col_list = ['work_type_Never_worked', 'work_type_Private',

Output: only converted columns here

Code : Feature Scaling

1. from sklearn.preprocessing import MinMaxScaler,

You might also like