0% found this document useful (0 votes)

34 views8 pages

Data Cleaning Approaches in Machine Learning Algorithms

Uploaded by

rayachotiusa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

34 views8 pages

Data Cleaning Approaches in Machine Learning Algorithms

Uploaded by

rayachotiusa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 8

Data Cleaning Approaches in Machine Learning Algorithms

1. Handling Missing Data

 Identify missing values.
 Impute or remove missing data using appropriate techniques.
 Python Code:
import pandas as pd
from sklearn.impute import SimpleImputer

# Identify missing data

missing_values = data.isnull().sum()

# Mean/Median/Mode Imputation
imputer = SimpleImputer(strategy='mean') # Can change to 'median' or 'most_frequent'
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

# Forward/Backward Fill
data_filled = data.fillna(method='ffill') # Can change to 'bfill' for backward fill

2. Handling Outliers
 Detect outliers using statistical methods or visual tools.
 Handle outliers by capping, transforming, or removing them.
 Python Code:
import numpy as np

# Z-score Method for Outlier Detection

z_scores = (data - data.mean()) / data.std()
data_no_outliers = data[(np.abs(z_scores) < 3).all(axis=1)] # Remove data with z > 3
# IQR Method for Outlier Detection
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
data_no_outliers = data[~((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 *
IQR))).any(axis=1)]

3. Removing Duplicates
 Identify duplicate records in the dataset.
 Remove duplicates while retaining necessary unique entries.
 Python Code:
# Identify and remove duplicates
data_no_duplicates = data.drop_duplicates()

4. Normalizing and Scaling

 Normalize or scale features for algorithms sensitive to different feature scales.
 Python Code:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Standardization
scaler = StandardScaler()
data_scaled = pd.DataFrame(scaler.fit_transform(data), columns=data.columns)

# Min-Max Scaling
min_max_scaler = MinMaxScaler()
data_min_max_scaled = pd.DataFrame(min_max_scaler.fit_transform(data),
columns=data.columns)
5. Encoding Categorical Variables
 Convert categorical variables into numerical values using encoding techniques
like One-Hot Encoding or Label Encoding.
 Python Code:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# Label Encoding
label_encoder = LabelEncoder()
data['encoded_column'] = label_encoder.fit_transform(data['categorical_column'])

# One-Hot Encoding
one_hot_encoder = pd.get_dummies(data, columns=['categorical_column'],
drop_first=True)

6. Dealing with Imbalanced Data

 Apply oversampling or undersampling techniques to balance class distributions.
 Python Code:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split

# Split dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# SMOTE Oversampling
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)
7. Handling Inconsistent Data
 Standardize formats, correct typos, and handle inconsistencies in data types or
units.
 Python Code:
# Correct inconsistent data
data['date_column'] = pd.to_datetime(data['date_column'])
data['text_column'] = data['text_column'].str.lower() # Lowercase text

# Handling typos using fuzzy matching

import fuzzywuzzy
from fuzzywuzzy import process
correct_spellings = ["category1", "category2"]
data['corrected_column'] = data['categorical_column'].apply(lambda x:
process.extractOne(x, correct_spellings)[0])

8. Feature Engineering
 Create new features based on existing ones, or use interaction and polynomial
features.
 Python Code:
from sklearn.preprocessing import PolynomialFeatures

# Creating new features (e.g., interaction terms)

data['new_feature'] = data['feature1'] * data['feature2']

# Polynomial features
poly = PolynomialFeatures(degree=2)
data_poly = poly.fit_transform(data[['feature1', 'feature2']])
9. Removing Irrelevant Features
 Remove features that provide little or no information.
 Python Code:
# Variance Threshold
from sklearn.feature_selection import VarianceThreshold

selector = VarianceThreshold(threshold=0.1)
data_reduced = selector.fit_transform(data)

10. Handling Multicollinearity

 Detect multicollinearity using correlation matrices or VIF and remove highly
correlated features.
 Python Code:
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Calculate VIF for each feature

vif = pd.DataFrame()
vif['VIF'] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]
vif['Feature'] = X.columns

# Remove highly collinear features based on VIF score

X_reduced = X.drop(columns=['high_vif_feature'])

11. Text Data Cleaning

 Clean and preprocess text data by tokenizing, removing stopwords, and
normalizing case.
 Python Code:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string
# Remove punctuation, stopwords, and lowercase
stop_words = set(stopwords.words('english'))
data['cleaned_text'] = data['text_column'].apply(lambda x: ' '.join([word for word in
word_tokenize(x.lower()) if word not in stop_words and word not in string.punctuation]))

12. Date/Time Data Handling

 Extract features from date columns or normalize to a common time zone.
 Python Code:
# Extracting year, month, day from datetime
data['year'] = data['date_column'].dt.year
data['month'] = data['date_column'].dt.month
data['day'] = data['date_column'].dt.day

13. Handling Data Leakage

 Prevent target leakage by separating training and test datasets early and
ensuring no future information is included.
 Python Code:
# Separate data before processing
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

14. Handling Zero-Variance Features

 Identify features with no variance and remove them from the dataset.
 Python Code:
# Variance Threshold to remove zero variance features
from sklearn.feature_selection import VarianceThreshold
selector = VarianceThreshold(threshold=0)
data_cleaned = selector.fit_transform(data)
15. Addressing Class Imbalance in Regression
 Use techniques like stratified sampling or weighted loss functions to handle
imbalanced data in regression problems.
 Python Code:
from sklearn.utils import class_weight

# Class weights in regression

class_weights = class_weight.compute_sample_weight(class_weight='balanced',
y=y_train)

16. Addressing Imbalanced Data in Classification

 Use oversampling, undersampling, or adjusting decision thresholds to handle
imbalanced classes.
 Python Code:
# Adjust decision threshold for a classifier
from sklearn.metrics import precision_recall_curve

y_pred_prob = classifier.predict_proba(X_test)[:, 1]
precision, recall, thresholds = precision_recall_curve(y_test, y_pred_prob)
best_threshold = thresholds[np.argmax(precision)]

17. Handling Missing Categorical Values

 Impute missing categorical values using the mode or create a separate category.
 Python Code:
# Impute missing categorical values with the most frequent category (mode)
imputer = SimpleImputer(strategy='most_frequent')
data['categorical_column'] = imputer.fit_transform(data[['categorical_column']])
18. Log Transformation
 Apply logarithmic transformation to reduce skewness in data.
 Python Code:
# Log transformation for skewed features
data['log_transformed_feature'] = np.log(data['skewed_feature'] + 1) # Adding 1 to
avoid log(0)

19. Binning Continuous Variables

 Convert continuous features into discrete intervals or bins for simplification.
 Python Code:
# Binning a continuous feature into discrete categories
data['binned_feature'] = pd.cut(data['continuous_feature'], bins=5, labels=['very low',
'low', 'medium', 'high', 'very high'])

20. Converting Numerical to Categorical

 Convert numerical variables into categorical ones based on specific ranges or
thresholds.
 Python Code:
# Convert numerical age into categories
data['age_group'] = pd.cut(data['age'], bins=[0, 18, 35, 60, 100], labels=['child', 'young
adult', 'senior'])

Note: The above data cleaning techniques and their corresponding Python code can
help you create a robust preprocessing pipeline, improving the quality of the datasets
before feeding them into machine learning models.

Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Be A 65 Ads Exp 3
No ratings yet
Be A 65 Ads Exp 3
6 pages
3-Data Preprocessing
No ratings yet
3-Data Preprocessing
32 pages
Dsur Ea2352001010391 W7
No ratings yet
Dsur Ea2352001010391 W7
3 pages
III Unit
No ratings yet
III Unit
4 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
Exp 2
No ratings yet
Exp 2
6 pages
Advance Python
No ratings yet
Advance Python
5 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
Regression
No ratings yet
Regression
26 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Day-4 DS Practicals
No ratings yet
Day-4 DS Practicals
5 pages
Northbay Summarizes Data Pre-Processing Algorithms
No ratings yet
Northbay Summarizes Data Pre-Processing Algorithms
10 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
Machine Learning Model Workflow
No ratings yet
Machine Learning Model Workflow
3 pages
1 - Data Preprocessing and Cleaning - 55
No ratings yet
1 - Data Preprocessing and Cleaning - 55
8 pages
ML Viva Practice (Answers)
No ratings yet
ML Viva Practice (Answers)
4 pages
Kaggle Course Notes
No ratings yet
Kaggle Course Notes
87 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Machine Learning Lab File
No ratings yet
Machine Learning Lab File
45 pages
Subject - Machine Learning Group - E27-24 Name
No ratings yet
Subject - Machine Learning Group - E27-24 Name
18 pages
Okay
No ratings yet
Okay
1 page
Data Cleaning Using R
No ratings yet
Data Cleaning Using R
5 pages
Data Preprocessing
No ratings yet
Data Preprocessing
1 page
DPT Week 1
No ratings yet
DPT Week 1
3 pages
Clodan Data Analysis and Modeling Guide
No ratings yet
Clodan Data Analysis and Modeling Guide
3 pages
Exam Preparation Notes
No ratings yet
Exam Preparation Notes
31 pages
Data Science Checklist
No ratings yet
Data Science Checklist
22 pages
Machine Learning
No ratings yet
Machine Learning
28 pages
ML Checklist PDF
No ratings yet
ML Checklist PDF
4 pages
Data Cleaning
No ratings yet
Data Cleaning
40 pages
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
No ratings yet
Progress of GRADIENT BOOSTING ALGORITHM FOR ELECTRICITY THEFT DETECTION IN POWER UTILITIES
10 pages
Data Preprocessing and Feature Engineering
No ratings yet
Data Preprocessing and Feature Engineering
32 pages
Machine Learning Essentials Guide
No ratings yet
Machine Learning Essentials Guide
33 pages
Study Material For Machine Learning - 1 - 1754721598318
No ratings yet
Study Material For Machine Learning - 1 - 1754721598318
18 pages
Kaggle Competition Mastery Guide
100% (1)
Kaggle Competition Mastery Guide
74 pages
Résumé-Analyse Des Données Resumee Resumee
No ratings yet
Résumé-Analyse Des Données Resumee Resumee
4 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
Complete Data Science Questions
No ratings yet
Complete Data Science Questions
5 pages
Machine Learning Project Checklist
No ratings yet
Machine Learning Project Checklist
30 pages
DIFFERENCES
No ratings yet
DIFFERENCES
3 pages
Data Wrangling & Data Manipulation With Pandas
No ratings yet
Data Wrangling & Data Manipulation With Pandas
6 pages
Lab 08 - Data Preprocessing
No ratings yet
Lab 08 - Data Preprocessing
9 pages
AIML Short Term Internship Session 10 Summary-1719293295226
No ratings yet
AIML Short Term Internship Session 10 Summary-1719293295226
3 pages
Supervised Learning Research Paper Final With Images
No ratings yet
Supervised Learning Research Paper Final With Images
11 pages
7 Data Preprocessing Steps in Machine Learning
No ratings yet
7 Data Preprocessing Steps in Machine Learning
5 pages
Machine Learning for Nigerian Languages
No ratings yet
Machine Learning for Nigerian Languages
67 pages
1data Cleansing Cheklist
No ratings yet
1data Cleansing Cheklist
2 pages
Chapter Three
No ratings yet
Chapter Three
35 pages
Data Preprocessing and Cleaning For Machine Learning
No ratings yet
Data Preprocessing and Cleaning For Machine Learning
16 pages
PYTHON PROGRAMMING FOR MACHINE LEARNING-220901004 - Compressed
No ratings yet
PYTHON PROGRAMMING FOR MACHINE LEARNING-220901004 - Compressed
6 pages
Machine Learning Concepts and Applications
No ratings yet
Machine Learning Concepts and Applications
8 pages
AAM 1st Unit QB
No ratings yet
AAM 1st Unit QB
4 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
Dsbda Lab - 2.1 - 1736750718198
No ratings yet
Dsbda Lab - 2.1 - 1736750718198
9 pages
SML
No ratings yet
SML
8 pages
PMA Unit-2 PDF
No ratings yet
PMA Unit-2 PDF
19 pages
Data Preprocessing For Machine Learning in Python
No ratings yet
Data Preprocessing For Machine Learning in Python
27 pages
Auto Insurance Fraud Detection Guide
No ratings yet
Auto Insurance Fraud Detection Guide
10 pages
Risk Analytics: Industry Case Studies
No ratings yet
Risk Analytics: Industry Case Studies
3 pages
02 B Regression Healthcare
No ratings yet
02 B Regression Healthcare
5 pages
05 E RandomForest LoanData
No ratings yet
05 E RandomForest LoanData
8 pages
TMTO Attacks and Rainbow Tables Explained
No ratings yet
TMTO Attacks and Rainbow Tables Explained
29 pages
Velocity and WC Chart PDF
No ratings yet
Velocity and WC Chart PDF
2 pages
10 General-Purpose Input/Outputs (Gpios) : 10.1 Signal Description
No ratings yet
10 General-Purpose Input/Outputs (Gpios) : 10.1 Signal Description
55 pages
Cosm Previous Year 1
No ratings yet
Cosm Previous Year 1
3 pages
Akashdeep Singh (Georgian - Final)
No ratings yet
Akashdeep Singh (Georgian - Final)
5 pages
Math Students' Project Report
No ratings yet
Math Students' Project Report
7 pages
1 DVS Prinsiples & Practice of Marine Diesel Engines 85 (Turbo)
100% (1)
1 DVS Prinsiples & Practice of Marine Diesel Engines 85 (Turbo)
85 pages
Being Transgender What You Should Know
No ratings yet
Being Transgender What You Should Know
256 pages
Intrinsic vs. Extrinsic Literary Elements
No ratings yet
Intrinsic vs. Extrinsic Literary Elements
90 pages
Grade 9 Geography - Social Sciences Question Paper 2023
No ratings yet
Grade 9 Geography - Social Sciences Question Paper 2023
6 pages
RRB NTPC Syllabus 2024 For First and Second
No ratings yet
RRB NTPC Syllabus 2024 For First and Second
5 pages
Best ADX Strategy Built by Professional Traders PDF
100% (1)
Best ADX Strategy Built by Professional Traders PDF
13 pages
Essential AI Tools for Journalists
No ratings yet
Essential AI Tools for Journalists
20 pages
Tuc 2 Tu 2 e
No ratings yet
Tuc 2 Tu 2 e
17 pages
Testing and Commissioning Procedure For Motors
No ratings yet
Testing and Commissioning Procedure For Motors
6 pages
Tech 50
No ratings yet
Tech 50
46 pages
Topic 9
No ratings yet
Topic 9
45 pages
ECG Monitoring System Using Arduino and
No ratings yet
ECG Monitoring System Using Arduino and
4 pages
Lecture 4-Mathematical Modeling of Electrical Systems
No ratings yet
Lecture 4-Mathematical Modeling of Electrical Systems
58 pages
Greenhouse Crop Growth Management Guide
No ratings yet
Greenhouse Crop Growth Management Guide
8 pages
SELE Brochure Ascensori ENG 271017
No ratings yet
SELE Brochure Ascensori ENG 271017
24 pages
Definition Test 60-120
No ratings yet
Definition Test 60-120
3 pages
Grade 6 Mathematics Take Home Pack (Multiply & Divide) Term 2
No ratings yet
Grade 6 Mathematics Take Home Pack (Multiply & Divide) Term 2
11 pages
Bretta
No ratings yet
Bretta
2 pages
Fluke IR Windows
No ratings yet
Fluke IR Windows
6 pages
Planning A Lesson - STM L.
No ratings yet
Planning A Lesson - STM L.
34 pages
ITSM Structure and Roles
No ratings yet
ITSM Structure and Roles
12 pages
EuroKids Parent Brochure PDF
No ratings yet
EuroKids Parent Brochure PDF
6 pages
50 THE Effect of - Thiamine (Vitamin B1) ON OF Yeast: Fermentation
No ratings yet
50 THE Effect of - Thiamine (Vitamin B1) ON OF Yeast: Fermentation
7 pages
Glass Level Gauges - 2015 Rev 0
No ratings yet
Glass Level Gauges - 2015 Rev 0
57 pages