0% found this document useful (0 votes)

47 views37 pages

36.why Data Preprocessing Introduction

The document discusses data preprocessing and data cleaning techniques. It introduces why data preprocessing is important for data mining and describes common data quality issues like noise, incompleteness and inconsistencies in data. It then explains different techniques for handling missing values, noisy data, binning and using models like linear regression and clustering for cleaning dirty data.

Uploaded by

amna shahid

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

47 views37 pages

36.why Data Preprocessing Introduction

Uploaded by

amna shahid

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Data Mining

Why Data
Preprocessing:
Introduction
Data Preprocessing - Introduction
What is Data
Pre-processing

Process raw data to

prepare it for another
processing procedure

Transforming raw
data
into an
understandable
format.
Data Preprocessing - Introduction

Why DP

• No quality = No DM
• Decisions = QD

• Data is dirty in real

world
• Noisy
• Incomplete
• Inconsistent
Data Preprocessing - Introduction

Noisy & Inconsistent

Data
Noisy data

Random variance
and/or error in
measurement

Containing errors or
outliers
Data Preprocessing - Introduction

Incomplete data
Lacking attribute
values

Lacking certain
attributes of interest

Containing only
aggregate data
Data Preprocessing - Introduction

Inconsistent data
Containing
discrepancies in codes
or names

Age=“42”
birthday=“03/07/1997”

Rating “1,2,3”,
“A, B, C”
Data Mining

Why data
Preprocessing:
Why is data dirty
Why is data dirty
Reasons

• Noise

• Incompleteness

• Inaccuracy

• Inconsistency

• Timeliness
Why is data dirty

Reason of Noise
• Faulty data
collection
instruments

• Human or computer
error at data entry

• Errors in data
transmission
Why is data dirty

Incompleteness
“Not applicable” data
value when collected

Data collection &

analysis time difference

Human/HW/SW
problems
Why is data dirty

Reasons of Inaccuracy
• Data
transmission

• Inconsistent
naming
conventions,

• Duplicate tuples

• Inaccurate data
collection
Why is data dirty

Inconsistency &
Timeliness
Different data
sources

Functional
dependency violation

Data collection not

on required
frequency
Data Mining

Why data
Preprocessing:
Multi-Dimensional
Measure of Data
Quality
Measuring Data Quality

Measure of Data Quality

• Accuracy
• Completeness
• Consistency
• Timeliness
• Believability
• Value added
• Interpretability
• Accessibility
Measuring Data Quality

Accuracy &
Completeness
Data stored is correct
or not.
Unambiguous.

Assures that all data

for required
information is
available or not.
Measuring Data Quality

Consistency &
Timeliness
Data is in same format
at all time and from
different sources.

Availability of data in
required time.
Measuring Data Quality

Believability & Value

added
How much data can
be trusted that it is
true

What impact new

data has on existing
Measuring Data Quality

Interpretability &
Accessibility
How easily data can
be understood.

How and how easily

data can be
accessed
Data Mining

Data Cleaning
Introduction
Data Cleaning

Introduction

fill in missing values

smooth out noise

identifying outliers

correct
inconsistencies
Data Cleaning

Advantage
False, inaccurate or
misdirecting
conclusions

Make data more

reliable and
accurate
Data Cleaning

Need
Transmission error

Faulty equipment

Error due to different

conventions or scales

Availability of data
Data Mining

Data Cleaning
Missing Data
Missing Data

Missing data
Missing data is
unavailability of
essential data
which is required to
draw a conclusion
or information.
Missing Data

Reasons for Missing

Equipment
malfunction

Inconsistent with
recorded data/deletion

Data not entered

Not register history or

changes of the data
Missing Data
Handling missing values
Ignore the tuple

Fill in the missing

value manually

Fill in automatically
a global constant

Attribute mean

Most probable value

Data Mining

Data Cleaning
Noisy Data
Introduction
Noisy Data Intro
Missing data
Random error or
variance in a
measured variable.

Noisy data can be

expressed as
meaningless or
corrupt data that
cant be understood
by machine.
Noisy Data Intro
Reasons for Missing data
faulty instruments

data entry problems

transmission problems

technology limitation

Inconsistency in
naming convention
Noisy Data Intro

Handling Techniques
Binning

Regression analysis

Outlier analysis in
clustering

Combined computer
and human
inspection
Data Mining

Data Cleaning
Binning
Binning

Binning
Smooth sorted
data by
neighborhood

The sorted values

are distributed
into a number of
buckets or bins.
Binning
Binning Methods
Bin Medians, Bin Boundaries
Data Mining

Data Cleaning
Models
Data Cleaning - Models

Models

Linear Regression

Clustering
Data Cleaning - Models
Linear Regression
Line to fit two attributes

One att to predict other

Fit the data into fns.

Approx fn to capture
imp patterns/values

FN to find data set

values
Data Cleaning - Models

Clustering
Similar values into
groups or clusters

Detect and remove

outliers.

Procedure

Estimasi Anggaran Biaya Google Adwords Iklan Website
No ratings yet
Estimasi Anggaran Biaya Google Adwords Iklan Website
54 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
03preprocessing Part1
No ratings yet
03preprocessing Part1
21 pages
02 Data - Preprocessing - 4,5,6
No ratings yet
02 Data - Preprocessing - 4,5,6
54 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
11 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
Aiml Data Preprocessing
No ratings yet
Aiml Data Preprocessing
99 pages
Data Preparation Guide COS10022
No ratings yet
Data Preparation Guide COS10022
61 pages
M2 PPT
No ratings yet
M2 PPT
60 pages
Preprocessing
No ratings yet
Preprocessing
13 pages
Data Mining for Quality Improvement
100% (1)
Data Mining for Quality Improvement
34 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
Dmi Unit 3
No ratings yet
Dmi Unit 3
12 pages
40.cleaning Data
No ratings yet
40.cleaning Data
20 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Machine Learning Chapter 2
No ratings yet
Machine Learning Chapter 2
37 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
14 pages
Data Preprocessing Essentials
No ratings yet
Data Preprocessing Essentials
9 pages
Chapter 3& 4
No ratings yet
Chapter 3& 4
60 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
60 pages
Data Warehouse and Data Mining - Unit 3
No ratings yet
Data Warehouse and Data Mining - Unit 3
14 pages
DWM
No ratings yet
DWM
14 pages
Data Pre-Processing & Cleaning Guide
No ratings yet
Data Pre-Processing & Cleaning Guide
37 pages
DMiningKuliah2A (DPreparation) New
No ratings yet
DMiningKuliah2A (DPreparation) New
28 pages
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
No ratings yet
Unit 1datapre Processing Datacleaningtransformationreductionintegration 240509092339 7095c9af
88 pages
03 Data Preprocessing
No ratings yet
03 Data Preprocessing
15 pages
Final - Unit 3 Data Preprocessing - Phases
No ratings yet
Final - Unit 3 Data Preprocessing - Phases
42 pages
Study Material I
No ratings yet
Study Material I
140 pages
Data Preprocessing - 1: Course Leader
No ratings yet
Data Preprocessing - 1: Course Leader
22 pages
2 Data Pre-Processing
No ratings yet
2 Data Pre-Processing
50 pages
UNIT - Introduction - DataScience - New
No ratings yet
UNIT - Introduction - DataScience - New
55 pages
Data Pre Processing I
No ratings yet
Data Pre Processing I
37 pages
SML Updated UNIT-2
No ratings yet
SML Updated UNIT-2
43 pages
Data Preparation: KIT306/606: Data Analytics A/Prof. Quan Bai University of Tasmania
No ratings yet
Data Preparation: KIT306/606: Data Analytics A/Prof. Quan Bai University of Tasmania
49 pages
Introduction To Data Science 1-2-2025
No ratings yet
Introduction To Data Science 1-2-2025
14 pages
DMDW Chapter 3
No ratings yet
DMDW Chapter 3
13 pages
DWDM Unit 3
No ratings yet
DWDM Unit 3
16 pages
Data Mining
No ratings yet
Data Mining
22 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
Data Mining - Lecture 2
No ratings yet
Data Mining - Lecture 2
23 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
11 pages
DMDW Unit II
No ratings yet
DMDW Unit II
57 pages
Data Preprocessing for Tech Students
No ratings yet
Data Preprocessing for Tech Students
59 pages
Preprocessing
No ratings yet
Preprocessing
90 pages
2 DMiningKuliah 2A DPreparation
No ratings yet
2 DMiningKuliah 2A DPreparation
32 pages
Unit - II
No ratings yet
Unit - II
56 pages
CS-DM Module-2
No ratings yet
CS-DM Module-2
29 pages
DataSet Special Session-AI
No ratings yet
DataSet Special Session-AI
22 pages
Data Mining Requires Collecting Great Amount of Data (Available in Data Warehouses or Databases) To Achieve The Intended Objective
No ratings yet
Data Mining Requires Collecting Great Amount of Data (Available in Data Warehouses or Databases) To Achieve The Intended Objective
37 pages
Que Es Datamin
No ratings yet
Que Es Datamin
52 pages
Data Preprocessing 1 - Annotated
No ratings yet
Data Preprocessing 1 - Annotated
23 pages
Data Analytics: Collection & Pre-processing
No ratings yet
Data Analytics: Collection & Pre-processing
16 pages
Major Data Preprocessing Tasks
No ratings yet
Major Data Preprocessing Tasks
11 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
CSC 3301-Lecture06 Introduction To Machine Learning
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
56 pages
2 - DM
No ratings yet
2 - DM
2 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Data Preprocessing
No ratings yet
Data Preprocessing
11 pages
Session 4
No ratings yet
Session 4
40 pages

36.why Data Preprocessing Introduction

Uploaded by

36.why Data Preprocessing Introduction

Uploaded by

Data Mining

Process raw data to

• Data is dirty in real

Noisy & Inconsistent

Data collection &

Data collection not

Measure of Data Quality

Assures that all data

Believability & Value

What impact new

How and how easily

fill in missing values

smooth out noise

Make data more

Error due to different

Reasons for Missing

Data not entered

Not register history or

Fill in the missing

Most probable value

Noisy data can be

data entry problems

The sorted values

One att to predict other

Fit the data into fns.

FN to find data set

Detect and remove

You might also like