0% found this document useful (0 votes)

19 views5 pages

Practical 6 Encoding (Tanvir)

Practical_6_Encoding : DSV

Uploaded by

vhoratanvir1610

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views5 pages

Practical 6 Encoding (Tanvir)

Practical_6_Encoding : DSV

Uploaded by

vhoratanvir1610

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 5

DATA SCIENCE AND VISUALIZATION 12202080501060

202046707

Practical 6:
Perform encoding of categorical variables in the given dataset.

Introduction:

In data preprocessing, categorical variables need to be transformed into numerical

representations so that machine learning algorithms can process them effectively. This
practical demonstrates how to apply One-Hot Encoding, Label Encoding, and
preprocessing techniques such as scaling, normalization, and handling missing values. The
dataset used contains student details, including gender, city, mobile, semester marks, and
more.

Code:

from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import OneHotEncoder

import numpy as np

import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/DSV
/Dataset_(12202080501060)/student_dataset_with_missing_values.csv')

df = df.drop(['Name', 'Enrollment'], axis=1)

X = df.iloc[:, :-1].values

y = df.iloc[:, -1].values

gender_col_index = df.columns.get_loc('Gender')

city_col_index = df.columns.get_loc('City')

mobile_col_index = df.columns.get_loc('Mobile')

GCET
DATA SCIENCE AND VISUALIZATION 12202080501060
202046707

from sklearn.compose import make_column_transformer

from sklearn.impute import SimpleImputer

from sklearn.preprocessing import FunctionTransformer

numeric_transformer = SimpleImputer(strategy='mean')

categorical_transformer = OneHotEncoder(handle_unknown='ignore')

ct = make_column_transformer(

(categorical_transformer, [gender_col_index, city_col_index]),

(numeric_transformer, [mobile_col_index]),

remainder='passthrough'

X = ct.fit_transform(X)

X = X.toarray() if hasattr(X, 'toarray') else X

print("Data after encoding 'Gender' and 'City' and handling 'Mobile':")

print(X[:5])

from sklearn.preprocessing import LabelEncoder

GCET
DATA SCIENCE AND VISUALIZATION 12202080501060
202046707

le = LabelEncoder()

y = le.fit_transform(y)

print(y)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 7)

X_train

X_test

y_train

y_test

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

X_train_numeric = X_train[:, 8:]

X_test_numeric = X_test[:, 8:]

GCET
DATA SCIENCE AND VISUALIZATION 12202080501060
202046707

X_train_scaled = sc.fit_transform(X_train_numeric)

X_test_scaled = sc.transform(X_test_numeric)

print("Scaled X_train (numerical columns):")

print(X_train_scaled)

from sklearn.preprocessing import Normalizer

from sklearn.impute import SimpleImputer

import numpy as np

nm = Normalizer()

numerical_cols_indices = slice(8, None)

imputer_numerical = SimpleImputer(missing_values=np.nan, strategy='mean')

GCET
DATA SCIENCE AND VISUALIZATION 12202080501060
202046707

X_train[:, numerical_cols_indices] = imputer_numerical.fit_transform(X_train[:,

numerical_cols_indices])

X_test[:, numerical_cols_indices] = imputer_numerical.transform(X_test[:,

numerical_cols_indices])

X_train[:, numerical_cols_indices] = nm.fit_transform(X_train[:, numerical_cols_indices])

X_test[:, numerical_cols_indices] = nm.transform(X_test[:, numerical_cols_indices])

print("Numerical columns normalized after imputation.")

print(X_train)

Important Points:

1. One-Hot Encoding is used for categorical variables like Gender and City.

2. Label Encoding is applied on the target variable.

3. Missing values in numerical columns are handled using mean imputation.

4. StandardScaler normalizes numerical values to a common scale.

5. Normalizer ensures feature vectors have unit norm.

Conclusion:
Encoding categorical variables is a crucial step in data preprocessing. It allows machine
learning models to interpret categorical data effectively. In this practical, we successfully
encoded categorical features, handled missing values, and applied scaling and
normalization to numerical data, preparing the dataset for model building.

GCET

Lecture 5 Encoding
No ratings yet
Lecture 5 Encoding
35 pages
Machine Learning
No ratings yet
Machine Learning
81 pages
Exp 6
No ratings yet
Exp 6
9 pages
Dealing With Categorical
No ratings yet
Dealing With Categorical
25 pages
Program 1
No ratings yet
Program 1
6 pages
L1 - Data Pre-Processing & Steps of Building A Model
No ratings yet
L1 - Data Pre-Processing & Steps of Building A Model
30 pages
L7 - Categorical Data - Encoding - Preprocessing - NCU
No ratings yet
L7 - Categorical Data - Encoding - Preprocessing - NCU
23 pages
1
No ratings yet
1
3 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
TP4-ML-features Encoding
No ratings yet
TP4-ML-features Encoding
4 pages
003-FIN7790 (Part2)
No ratings yet
003-FIN7790 (Part2)
162 pages
Comparing Categorical Encoding Methods
No ratings yet
Comparing Categorical Encoding Methods
11 pages
What Are Categorical Data Encoding Methods - Binary Encoding
No ratings yet
What Are Categorical Data Encoding Methods - Binary Encoding
14 pages
Handling Categorical Variables in Ensemble Algorithms 2
No ratings yet
Handling Categorical Variables in Ensemble Algorithms 2
18 pages
Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
ML-Lab05-Data Preprocessing Techniques in Python
No ratings yet
ML-Lab05-Data Preprocessing Techniques in Python
7 pages
Categorical Variable Encoding Guide
No ratings yet
Categorical Variable Encoding Guide
21 pages
Dealing With Categorical Data
No ratings yet
Dealing With Categorical Data
14 pages
Lab 6
No ratings yet
Lab 6
6 pages
Feature Encoding
No ratings yet
Feature Encoding
5 pages
Practical 3 - Categorical Feature Engineering
No ratings yet
Practical 3 - Categorical Feature Engineering
6 pages
Data - Preprocessing - Jupyter Notebook
No ratings yet
Data - Preprocessing - Jupyter Notebook
5 pages
Week 10
No ratings yet
Week 10
50 pages
Data Preparation.2
No ratings yet
Data Preparation.2
18 pages
Data Preparation for Machine Learning
No ratings yet
Data Preparation for Machine Learning
45 pages
Categorical Variable Encoding Techniques
No ratings yet
Categorical Variable Encoding Techniques
25 pages
One-Hot Encoding for Categorical Data
No ratings yet
One-Hot Encoding for Categorical Data
4 pages
Unit-1 AI ML PYTHON - Jupyter Notebook
No ratings yet
Unit-1 AI ML PYTHON - Jupyter Notebook
10 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
7 - InnovatiCS - Categorical Data & Data Transformation
No ratings yet
7 - InnovatiCS - Categorical Data & Data Transformation
20 pages
Python Linear Regression Tutorial
No ratings yet
Python Linear Regression Tutorial
6 pages
Lab Manual 5 Solved 40
No ratings yet
Lab Manual 5 Solved 40
13 pages
Categorical Data Encoding Guide
No ratings yet
Categorical Data Encoding Guide
2 pages
DSBDA Practicals
No ratings yet
DSBDA Practicals
16 pages
Record
No ratings yet
Record
22 pages
Untitled Document
No ratings yet
Untitled Document
2 pages
Ads E2
No ratings yet
Ads E2
5 pages
Train
No ratings yet
Train
17 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
DMML Lab Report 04
No ratings yet
DMML Lab Report 04
6 pages
(Feature Engineering) (Extended-Cheatsheet)
100% (1)
(Feature Engineering) (Extended-Cheatsheet)
9 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
Ex 3
No ratings yet
Ex 3
11 pages
Linear REgression Lab Report 4
No ratings yet
Linear REgression Lab Report 4
3 pages
Data Mining Lab Manual CSE VII Sem
No ratings yet
Data Mining Lab Manual CSE VII Sem
63 pages
Handling Categorical Data in ML
No ratings yet
Handling Categorical Data in ML
18 pages
Assignment 03
No ratings yet
Assignment 03
6 pages
One-Hot Encoding for Categorical Data
No ratings yet
One-Hot Encoding for Categorical Data
2 pages
Scikit-Learn ML Cheat Sheet Guide
No ratings yet
Scikit-Learn ML Cheat Sheet Guide
3 pages
Data Science for Engineers Course
No ratings yet
Data Science for Engineers Course
8 pages
DS 1
No ratings yet
DS 1
20 pages
DATASCI112 Midterm Cheat Sheet
No ratings yet
DATASCI112 Midterm Cheat Sheet
2 pages
Machinelearning
No ratings yet
Machinelearning
26 pages
Encoding Notes
No ratings yet
Encoding Notes
4 pages
Zindi Financial Inclusion Guide
No ratings yet
Zindi Financial Inclusion Guide
12 pages
2795529-Python One Hot Encoding
No ratings yet
2795529-Python One Hot Encoding
2 pages
ML File Syllabus
No ratings yet
ML File Syllabus
43 pages
Data Transformation
No ratings yet
Data Transformation
16 pages
Practical 5 Missing Values
No ratings yet
Practical 5 Missing Values
4 pages
Practical 11
No ratings yet
Practical 11
11 pages
Practical-8 BDA
No ratings yet
Practical-8 BDA
17 pages
Round01 MernStack25
No ratings yet
Round01 MernStack25
4 pages
Practical-9 BDA
No ratings yet
Practical-9 BDA
20 pages
DSA Notes (Codewithtanvir)
No ratings yet
DSA Notes (Codewithtanvir)
8 pages
Practical 6 Encoding
No ratings yet
Practical 6 Encoding
2 pages
Practical 10
No ratings yet
Practical 10
7 pages
Practical-9 MAD
No ratings yet
Practical-9 MAD
7 pages
Practical 8 GRU
No ratings yet
Practical 8 GRU
3 pages
Practical2 Perceptron DL Formatted
No ratings yet
Practical2 Perceptron DL Formatted
5 pages
DL3 (1) Tanvir
No ratings yet
DL3 (1) Tanvir
6 pages
Practical-6 MAD
No ratings yet
Practical-6 MAD
8 pages
Practical 7 LSTM
No ratings yet
Practical 7 LSTM
2 pages
DL Prac
No ratings yet
DL Prac
10 pages
Practical-7 MAD
No ratings yet
Practical-7 MAD
4 pages
DLA - Lab Manual Index - Sem-7-IT
No ratings yet
DLA - Lab Manual Index - Sem-7-IT
4 pages
Lab Manual
No ratings yet
Lab Manual
11 pages
DLA - Lab Manual Index - Sem-7-IT
No ratings yet
DLA - Lab Manual Index - Sem-7-IT
4 pages
Practical 5
No ratings yet
Practical 5
13 pages
Practical 2 Report
No ratings yet
Practical 2 Report
5 pages
Student Data Analysis Report
No ratings yet
Student Data Analysis Report
7 pages
DSV Lab Manual Index
No ratings yet
DSV Lab Manual Index
4 pages
Practical 5 ICC
No ratings yet
Practical 5 ICC
15 pages
DL5 and 6th Final (1) Tanvir
No ratings yet
DL5 and 6th Final (1) Tanvir
12 pages
Practical5 (MAD) Tanvir
No ratings yet
Practical5 (MAD) Tanvir
14 pages
DL4Final (1) Tanvir
No ratings yet
DL4Final (1) Tanvir
10 pages
1 Continue...
No ratings yet
1 Continue...
39 pages
Practical4 IaaS Public Cloud
No ratings yet
Practical4 IaaS Public Cloud
19 pages
ICC Unit-2
No ratings yet
ICC Unit-2
75 pages
03 - Data Preprocessing
No ratings yet
03 - Data Preprocessing
23 pages
DeepFake Detection System
No ratings yet
DeepFake Detection System
60 pages
05 DS Data Preprocessing - Cleaning
No ratings yet
05 DS Data Preprocessing - Cleaning
14 pages
Shivanshu Minor Project
No ratings yet
Shivanshu Minor Project
26 pages
Mini Project Report
No ratings yet
Mini Project Report
19 pages
Module 1 MMC201
No ratings yet
Module 1 MMC201
77 pages
Automatic Weapon Detection Innovations
No ratings yet
Automatic Weapon Detection Innovations
3 pages
Smart Crop Disease Detection
No ratings yet
Smart Crop Disease Detection
19 pages
Comprehensive Guide to Data Science Basics
No ratings yet
Comprehensive Guide to Data Science Basics
6 pages
NLP and OCR Based Automatic Answer Script
No ratings yet
NLP and OCR Based Automatic Answer Script
6 pages
Module 2 - Data Preprocessing
No ratings yet
Module 2 - Data Preprocessing
16 pages
List Data Warehouse Models With Example
No ratings yet
List Data Warehouse Models With Example
19 pages
Heart Disease Prediction Final
No ratings yet
Heart Disease Prediction Final
11 pages
Sample Template File For Project
No ratings yet
Sample Template File For Project
8 pages
CH 03 PPTaccessible
No ratings yet
CH 03 PPTaccessible
71 pages
Project Report On Plant Disease Detection Using Convolutional Neural Networks
No ratings yet
Project Report On Plant Disease Detection Using Convolutional Neural Networks
21 pages
Project Report On Credit Risk Analysis Using Random Forest
No ratings yet
Project Report On Credit Risk Analysis Using Random Forest
8 pages
EEG Signal Preprocessing and Frequency Band Separation For Alpha Beta and Gamma Waves
No ratings yet
EEG Signal Preprocessing and Frequency Band Separation For Alpha Beta and Gamma Waves
10 pages
NLP Tokenization and Text Preprocessing Guide
No ratings yet
NLP Tokenization and Text Preprocessing Guide
6 pages
Bank Marketing Campaign Prediction
No ratings yet
Bank Marketing Campaign Prediction
20 pages
Text Preprocessing
No ratings yet
Text Preprocessing
3 pages
NLP Exp 2
No ratings yet
NLP Exp 2
4 pages
A Systematic Review On Big Data Applications and Scope For Industrial Processing and Healthcare Sectors
No ratings yet
A Systematic Review On Big Data Applications and Scope For Industrial Processing and Healthcare Sectors
35 pages
Prashant's Resume
No ratings yet
Prashant's Resume
1 page
LAWBOT
No ratings yet
LAWBOT
13 pages
32 Abstract
No ratings yet
32 Abstract
4 pages
Maha CV
No ratings yet
Maha CV
1 page
DSA Module 1 Notes
No ratings yet
DSA Module 1 Notes
24 pages
Final Project Emotion Detection
No ratings yet
Final Project Emotion Detection
40 pages
Ajay Saini Project Report - 0001 Final
No ratings yet
Ajay Saini Project Report - 0001 Final
80 pages

Practical 6 Encoding (Tanvir)

Uploaded by

Practical 6 Encoding (Tanvir)

Uploaded by

DATA SCIENCE AND VISUALIZATION 12202080501060

In data preprocessing, categorical variables need to be transformed into numerical

from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import OneHotEncoder

df = df.drop(['Name', 'Enrollment'], axis=1)

from sklearn.compose import make_column_transformer

from sklearn.impute import SimpleImputer

from sklearn.preprocessing import FunctionTransformer

(categorical_transformer, [gender_col_index, city_col_index]),

X = X.toarray() if hasattr(X, 'toarray') else X

print("Data after encoding 'Gender' and 'City' and handling 'Mobile':")

from sklearn.preprocessing import LabelEncoder

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 7)

from sklearn.preprocessing import StandardScaler

X_train_numeric = X_train[:, 8:]

X_test_numeric = X_test[:, 8:]

print("Scaled X_train (numerical columns):")

from sklearn.preprocessing import Normalizer

from sklearn.impute import SimpleImputer

numerical_cols_indices = slice(8, None)

imputer_numerical = SimpleImputer(missing_values=np.nan, strategy='mean')

X_train[:, numerical_cols_indices] = imputer_numerical.fit_transform(X_train[:,

X_test[:, numerical_cols_indices] = imputer_numerical.transform(X_test[:,

X_train[:, numerical_cols_indices] = nm.fit_transform(X_train[:, numerical_cols_indices])

X_test[:, numerical_cols_indices] = nm.transform(X_test[:, numerical_cols_indices])

print("Numerical columns normalized after imputation.")

2. Label Encoding is applied on the target variable.

3. Missing values in numerical columns are handled using mean imputation.

4. StandardScaler normalizes numerical values to a common scale.

5. Normalizer ensures feature vectors have unit norm.

You might also like