Practical 6 Encoding

Practical_6_Encoding : DSV

Uploaded by

vhoratanvir1610

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

20 views2 pages

Practical 6 Encoding

Practical_6_Encoding : DSV

Uploaded by

vhoratanvir1610

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Practical 6: Perform Encoding of Categorical Variables

In data preprocessing, categorical variables need to be transformed into numerical

representations so that machine learning algorithms can process them effectively. This
practical demonstrates how to apply One-Hot Encoding, Label Encoding, and
preprocessing techniques such as scaling, normalization, and handling missing values. The
dataset used contains student details, including gender, city, mobile, semester marks, and
more.

from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import OneHotEncoder
import numpy as np
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/DSV /Dataset_(12202080501060)/student_dataset_with_missing_

# Drop 'Name' and 'Enrollment' as they are likely unique identifiers and not useful for encoding
df = df.drop(['Name', 'Enrollment'], axis=1)

# Separate features (X) and target (y - assuming the last column is the target)
X = df.iloc[:, :-1].values
y = df.iloc[:, -1].values

# Identify the index of the 'Gender' column in the modified dataframe

gender_col_index = df.columns.get_loc('Gender')
city_col_index = df.columns.get_loc('City')
mobile_col_index = df.columns.get_loc('Mobile')

# Use ColumnTransformer to apply OneHotEncoder to 'Gender' and 'City'

from sklearn.compose import make_column_transformer
from sklearn.impute import SimpleImputer

numeric_transformer = SimpleImputer(strategy='mean')
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

ct = make_column_transformer(
(categorical_transformer, [gender_col_index, city_col_index]),
(numeric_transformer, [mobile_col_index]),
remainder='passthrough'
)

X = ct.fit_transform(X)
X = X.toarray() if hasattr(X, 'toarray') else X
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=7)

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
X_train_numeric = X_train[:, 8:]
X_test_numeric = X_test[:, 8:]
X_train_scaled = sc.fit_transform(X_train_numeric)
X_test_scaled = sc.transform(X_test_numeric)

from sklearn.preprocessing import Normalizer

nm = Normalizer()
numerical_cols_indices = slice(8, None)
imputer_numerical = SimpleImputer(missing_values=np.nan, strategy='mean')
X_train[:, numerical_cols_indices] = imputer_numerical.fit_transform(X_train[:, numerical_cols_indices])
X_test[:, numerical_cols_indices] = imputer_numerical.transform(X_test[:, numerical_cols_indices])
X_train[:, numerical_cols_indices] = nm.fit_transform(X_train[:, numerical_cols_indices])
X_test[:, numerical_cols_indices] = nm.transform(X_test[:, numerical_cols_indices])

Important Points: 1. One-Hot Encoding is used for categorical variables like Gender and
City. 2. Label Encoding is applied on the target variable. 3. Missing values in numerical
columns are handled using mean imputation. 4. StandardScaler normalizes numerical
values to a common scale. 5. Normalizer ensures feature vectors have unit norm.

Conclusion:
Encoding categorical variables is a crucial step in data preprocessing. It allows machine
learning models to interpret categorical data effectively. In this practical, we successfully
encoded categorical features, handled missing values, and applied scaling and
normalization to numerical data, preparing the dataset for model building.

Exp 6
No ratings yet
Exp 6
9 pages
Categorical Data Encoding Guide
No ratings yet
Categorical Data Encoding Guide
2 pages
Dealing With Categorical
No ratings yet
Dealing With Categorical
25 pages
Program 1
No ratings yet
Program 1
6 pages
L7 - Categorical Data - Encoding - Preprocessing - NCU
No ratings yet
L7 - Categorical Data - Encoding - Preprocessing - NCU
23 pages
Lecture 5 Encoding
No ratings yet
Lecture 5 Encoding
35 pages
One-Hot Encoding for Categorical Data
No ratings yet
One-Hot Encoding for Categorical Data
2 pages
One-Hot Encoding for Categorical Data
No ratings yet
One-Hot Encoding for Categorical Data
4 pages
TP4-ML-features Encoding
No ratings yet
TP4-ML-features Encoding
4 pages
Feature Encoding
No ratings yet
Feature Encoding
5 pages
What Are Categorical Data Encoding Methods - Binary Encoding
No ratings yet
What Are Categorical Data Encoding Methods - Binary Encoding
14 pages
ML-Lab05-Data Preprocessing Techniques in Python
No ratings yet
ML-Lab05-Data Preprocessing Techniques in Python
7 pages
L1 - Data Pre-Processing & Steps of Building A Model
No ratings yet
L1 - Data Pre-Processing & Steps of Building A Model
30 pages
Lab 6
No ratings yet
Lab 6
6 pages
Categorical Variable Encoding Techniques
No ratings yet
Categorical Variable Encoding Techniques
25 pages
Categorical Variable Encoding Guide
No ratings yet
Categorical Variable Encoding Guide
21 pages
Lab Manual 5 Solved 40
No ratings yet
Lab Manual 5 Solved 40
13 pages
Untitled Document
No ratings yet
Untitled Document
2 pages
Handling Categorical Variables in Ensemble Algorithms 2
No ratings yet
Handling Categorical Variables in Ensemble Algorithms 2
18 pages
Practical 3 - Categorical Feature Engineering
No ratings yet
Practical 3 - Categorical Feature Engineering
6 pages
Record
No ratings yet
Record
22 pages
7 - InnovatiCS - Categorical Data & Data Transformation
No ratings yet
7 - InnovatiCS - Categorical Data & Data Transformation
20 pages
Categorical Encoding: Label vs One-Hot
No ratings yet
Categorical Encoding: Label vs One-Hot
9 pages
Handling Categorical Variables in Python
No ratings yet
Handling Categorical Variables in Python
8 pages
003-FIN7790 (Part2)
No ratings yet
003-FIN7790 (Part2)
162 pages
Machine Learning
No ratings yet
Machine Learning
81 pages
6 One Hot Encoding
No ratings yet
6 One Hot Encoding
3 pages
Encoding Categorical Data
No ratings yet
Encoding Categorical Data
4 pages
OneHot Encoding
No ratings yet
OneHot Encoding
5 pages
DMML Lab Report 04
No ratings yet
DMML Lab Report 04
6 pages
Mastering Categorical Encoding
No ratings yet
Mastering Categorical Encoding
8 pages
DS 1
No ratings yet
DS 1
20 pages
Working With Pre (Rocessing Data Files
No ratings yet
Working With Pre (Rocessing Data Files
4 pages
1
No ratings yet
1
3 pages
Untitled Document 5
No ratings yet
Untitled Document 5
3 pages
Train
No ratings yet
Train
17 pages
Spyder Version Errors and Warnings
No ratings yet
Spyder Version Errors and Warnings
2 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Dealing With Categorical Data
No ratings yet
Dealing With Categorical Data
14 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
Encoding Notes
No ratings yet
Encoding Notes
4 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
Zindi Financial Inclusion Guide
No ratings yet
Zindi Financial Inclusion Guide
12 pages
S3 Data Processing and Classification
No ratings yet
S3 Data Processing and Classification
25 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
Ai Code
No ratings yet
Ai Code
2 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
Fall Semester 2020-21 AI With Python ECE-4031
No ratings yet
Fall Semester 2020-21 AI With Python ECE-4031
5 pages
Comparing Categorical Encoding Methods
No ratings yet
Comparing Categorical Encoding Methods
11 pages
Ex 3
No ratings yet
Ex 3
11 pages
DataWare Housing Asg01 Shaheer Zia Qazi-47-2
No ratings yet
DataWare Housing Asg01 Shaheer Zia Qazi-47-2
9 pages
(Feature Engineering) (Extended-Cheatsheet)
100% (1)
(Feature Engineering) (Extended-Cheatsheet)
9 pages
Regularized Target Encoding Outperforms Traditional Methods in Supervised Machine Learning With High Cardinality Features
No ratings yet
Regularized Target Encoding Outperforms Traditional Methods in Supervised Machine Learning With High Cardinality Features
22 pages
ML Concepts Papers
No ratings yet
ML Concepts Papers
3 pages
Data Wrangling and Imputation Techniques
100% (1)
Data Wrangling and Imputation Techniques
41 pages
ML All Projectpdf Removed
No ratings yet
ML All Projectpdf Removed
41 pages
4 Data Preprocessing
No ratings yet
4 Data Preprocessing
27 pages
Practical 5 Missing Values
No ratings yet
Practical 5 Missing Values
4 pages
Practical 11
No ratings yet
Practical 11
11 pages
Practical-8 BDA
No ratings yet
Practical-8 BDA
17 pages
Round01 MernStack25
No ratings yet
Round01 MernStack25
4 pages
Practical-9 BDA
No ratings yet
Practical-9 BDA
20 pages
DSA Notes (Codewithtanvir)
No ratings yet
DSA Notes (Codewithtanvir)
8 pages
Practical 6 Encoding (Tanvir)
No ratings yet
Practical 6 Encoding (Tanvir)
5 pages
Practical 10
No ratings yet
Practical 10
7 pages
Practical-9 MAD
No ratings yet
Practical-9 MAD
7 pages
Practical 8 GRU
No ratings yet
Practical 8 GRU
3 pages
Practical2 Perceptron DL Formatted
No ratings yet
Practical2 Perceptron DL Formatted
5 pages
DL3 (1) Tanvir
No ratings yet
DL3 (1) Tanvir
6 pages
Practical-6 MAD
No ratings yet
Practical-6 MAD
8 pages
Practical 7 LSTM
No ratings yet
Practical 7 LSTM
2 pages
DL Prac
No ratings yet
DL Prac
10 pages
Practical-7 MAD
No ratings yet
Practical-7 MAD
4 pages
DLA - Lab Manual Index - Sem-7-IT
No ratings yet
DLA - Lab Manual Index - Sem-7-IT
4 pages
Lab Manual
No ratings yet
Lab Manual
11 pages
DLA - Lab Manual Index - Sem-7-IT
No ratings yet
DLA - Lab Manual Index - Sem-7-IT
4 pages
Practical 5
No ratings yet
Practical 5
13 pages
Practical 2 Report
No ratings yet
Practical 2 Report
5 pages
Student Data Analysis Report
No ratings yet
Student Data Analysis Report
7 pages
DSV Lab Manual Index
No ratings yet
DSV Lab Manual Index
4 pages
Practical 5 ICC
No ratings yet
Practical 5 ICC
15 pages
DL5 and 6th Final (1) Tanvir
No ratings yet
DL5 and 6th Final (1) Tanvir
12 pages
Practical5 (MAD) Tanvir
No ratings yet
Practical5 (MAD) Tanvir
14 pages
DL4Final (1) Tanvir
No ratings yet
DL4Final (1) Tanvir
10 pages
1 Continue...
No ratings yet
1 Continue...
39 pages
Practical4 IaaS Public Cloud
No ratings yet
Practical4 IaaS Public Cloud
19 pages
ICC Unit-2
No ratings yet
ICC Unit-2
75 pages
ALC662 (ALC662-GR, ALC662-VC-GR) : Rev. 1.1 15 March 2008 Track ID: JATR-1076-21
No ratings yet
ALC662 (ALC662-GR, ALC662-VC-GR) : Rev. 1.1 15 March 2008 Track ID: JATR-1076-21
81 pages
Unit 1 Introduction To Data Structures
No ratings yet
Unit 1 Introduction To Data Structures
98 pages
SciTech Premium Collection
No ratings yet
SciTech Premium Collection
13 pages
Garis Panduan Log in Sistem Smpweb Bagi Pelajar Baharu: Guidelines For Login To Smpweb For New Students
No ratings yet
Garis Panduan Log in Sistem Smpweb Bagi Pelajar Baharu: Guidelines For Login To Smpweb For New Students
4 pages
BI Architecture & Data Types Explained
No ratings yet
BI Architecture & Data Types Explained
6 pages
SWIFT MT103 Message Format Cheatsheet Faisal Khan LLC
No ratings yet
SWIFT MT103 Message Format Cheatsheet Faisal Khan LLC
4 pages
Delhi Sultanate Revenue System
No ratings yet
Delhi Sultanate Revenue System
8 pages
Bar Questions 2002
No ratings yet
Bar Questions 2002
6 pages
Charitable Trust
No ratings yet
Charitable Trust
27 pages
Voice-Controlled Android Robot
No ratings yet
Voice-Controlled Android Robot
12 pages
Caught In-Between Hazards
No ratings yet
Caught In-Between Hazards
42 pages
Health Communication in 21st 2 Kevin B. Wright Full Access
No ratings yet
Health Communication in 21st 2 Kevin B. Wright Full Access
55 pages
R24 MBA III & IV Updated - 16 July 2025 - Semester Syllabus
No ratings yet
R24 MBA III & IV Updated - 16 July 2025 - Semester Syllabus
220 pages
Chap 1
No ratings yet
Chap 1
25 pages
Insulated Roofing Solutions Guide
No ratings yet
Insulated Roofing Solutions Guide
4 pages
Viva Qnts For Semester 1
No ratings yet
Viva Qnts For Semester 1
9 pages
Understanding RDBMS and SQL Basics
No ratings yet
Understanding RDBMS and SQL Basics
18 pages
Applicationform
No ratings yet
Applicationform
2 pages
Character Reference Letter For Court - Edited
0% (1)
Character Reference Letter For Court - Edited
3 pages
Subhash Kumar-Resume
No ratings yet
Subhash Kumar-Resume
5 pages
Entrepreneurship and Small Business Management: Unit 9 Handbook
No ratings yet
Entrepreneurship and Small Business Management: Unit 9 Handbook
14 pages
ANSIIEEE 1073 Medical Information Bus MIB
No ratings yet
ANSIIEEE 1073 Medical Information Bus MIB
12 pages
Asian Security: US-China Dynamics
No ratings yet
Asian Security: US-China Dynamics
115 pages
Unit 3 - Object Oriented Programming and Methodology - WWW - Rgpvnotes.in
No ratings yet
Unit 3 - Object Oriented Programming and Methodology - WWW - Rgpvnotes.in
15 pages
Abdüsselam Altunkaynak, PHD Associate Professor, Department of Civil Engineering, I.T.U
No ratings yet
Abdüsselam Altunkaynak, PHD Associate Professor, Department of Civil Engineering, I.T.U
79 pages
Ags 2007e1
No ratings yet
Ags 2007e1
25 pages
9.) Enrile V Sandiganbayan
100% (1)
9.) Enrile V Sandiganbayan
2 pages
Stock Markets Ni India
No ratings yet
Stock Markets Ni India
6 pages
Common Car Brake Problems Explained
No ratings yet
Common Car Brake Problems Explained
7 pages
1.577 81 1.655 66 77 KW TDI CR Engine (CAYA CAYB CAYC CLNA CWXB CWXC)
100% (1)
1.577 81 1.655 66 77 KW TDI CR Engine (CAYA CAYB CAYC CLNA CWXB CWXC)
577 pages

Practical 6 Encoding

Uploaded by

Practical 6 Encoding

Uploaded by

Practical 6: Perform Encoding of Categorical Variables

In data preprocessing, categorical variables need to be transformed into numerical

from sklearn.compose import ColumnTransformer

# Identify the index of the 'Gender' column in the modified dataframe

# Use ColumnTransformer to apply OneHotEncoder to 'Gender' and 'City'

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler

from sklearn.preprocessing import Normalizer

You might also like