0% found this document useful (0 votes)

163 views2 pages

Data Preprocessing Questions

This document contains theory and problem-based questions related to data preprocessing, covering topics such as data cleaning, data quality, normalization techniques, and strategies for data transformation. It includes practical exercises on smoothing, normalization, and binning methods with specific datasets. The questions aim to deepen understanding of data preprocessing concepts and their application in real-world scenarios.

Uploaded by

ssitavinya2022

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

163 views2 pages

Data Preprocessing Questions

Uploaded by

ssitavinya2022

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Data Preprocessing - Unit 2 Chapter 3 Questions

Theory Questions

1. Differentiate between data cleaning, data integration, data reduction, and data transformation with suitable

examples.

2. Enlist and briefly explain the six key elements of data quality.

3. Explain the need for data preprocessing in real-world data mining applications.

4. Differentiate between dimensionality reduction and numerosity reduction.

5. Enlist and describe different methods to handle missing values during data cleaning.

6. Explain the concept of normalization. What are the commonly used normalization techniques?

7. Explain the steps involved in data integration. How does it help avoid redundancies and inconsistencies?

8. Describe the different strategies for data transformation with examples (e.g., smoothing, aggregation).

9. Explain the process of data discretization and concept hierarchy generation with examples.

10. Differentiate between supervised and unsupervised discretization, and between top-down and bottom-up

approaches.

Problem-Based Questions

1. A dataset contains age values: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35,

35, 36, 40, 45, 46, 52, 70.

(a) Use smoothing by bin means with bin size 3.

(b) Comment on the effect of smoothing.

2. Normalize the values 200, 300, 400, 600, 1000 using:

(a) Min-max normalization with range [0,1]

(b) Z-score normalization

(c) Decimal scaling normalization.

Data Preprocessing - Unit 2 Chapter 3 Questions

3. Use min-max normalization to transform the value 35 from a dataset where min = 13 and max = 70.

4. Given attributes: age and body fat for a dataset.

(a) Perform Z-score normalization

(b) Compute correlation coefficient and determine the correlation type.

5. A sales dataset has values: 5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215.

Apply equal-width and equal-frequency binning.

Comment on the advantages of each.

Assg 2 Pre-Processing
No ratings yet
Assg 2 Pre-Processing
1 page
Data Pre-processing Assignment Guide
No ratings yet
Data Pre-processing Assignment Guide
2 pages
21CS63 - Unit1 Practice Questions
No ratings yet
21CS63 - Unit1 Practice Questions
3 pages
OJCST Vol13 N2-3 P 78-81
No ratings yet
OJCST Vol13 N2-3 P 78-81
4 pages
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
No ratings yet
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
21 pages
Data Preprocessing Techniques Guide
No ratings yet
Data Preprocessing Techniques Guide
8 pages
Data Warehouse and Mining
No ratings yet
Data Warehouse and Mining
13 pages
Preprocessing
No ratings yet
Preprocessing
90 pages
1 Assignment
No ratings yet
1 Assignment
2 pages
ChatGPT - Scholar GPT2
No ratings yet
ChatGPT - Scholar GPT2
2 pages
Data Preprocessing Techniques Guide
No ratings yet
Data Preprocessing Techniques Guide
20 pages
Lecture 3 - Data Preprocessing
No ratings yet
Lecture 3 - Data Preprocessing
50 pages
Unit 2: Big Data Analytics
No ratings yet
Unit 2: Big Data Analytics
45 pages
Normalization Techniques for Data Analysis
No ratings yet
Normalization Techniques for Data Analysis
7 pages
Data Preprocessing
No ratings yet
Data Preprocessing
39 pages
Data Mining - Lab 1
No ratings yet
Data Mining - Lab 1
4 pages
18mca52c U2
No ratings yet
18mca52c U2
23 pages
Chapter 3 Questions
No ratings yet
Chapter 3 Questions
2 pages
Data Preprocessing Overview and Techniques
100% (1)
Data Preprocessing Overview and Techniques
41 pages
Final - Unit 3 Data Preprocessing - Phases
No ratings yet
Final - Unit 3 Data Preprocessing - Phases
42 pages
Pre Processing
No ratings yet
Pre Processing
43 pages
Importance of Data Preprocessing in Mining
No ratings yet
Importance of Data Preprocessing in Mining
77 pages
Assignment 02
No ratings yet
Assignment 02
9 pages
4.1 - Data Preprocessing
No ratings yet
4.1 - Data Preprocessing
28 pages
Data Preprocessing
No ratings yet
Data Preprocessing
60 pages
Data Preprocessing for Tech Students
No ratings yet
Data Preprocessing for Tech Students
59 pages
DWM
No ratings yet
DWM
14 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
FDS CH 3
No ratings yet
FDS CH 3
2 pages
Data Science Concepts & Techniques
No ratings yet
Data Science Concepts & Techniques
18 pages
Chapter 3: Data Preprocessing
No ratings yet
Chapter 3: Data Preprocessing
30 pages
Module 2 (C) - Data Preprocessing
No ratings yet
Module 2 (C) - Data Preprocessing
50 pages
Bi Ut2 Quebank
No ratings yet
Bi Ut2 Quebank
2 pages
Data Pre-Processing Guide
No ratings yet
Data Pre-Processing Guide
33 pages
Unit 2
No ratings yet
Unit 2
37 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Data Preprocessing Techniques Explained
No ratings yet
Data Preprocessing Techniques Explained
94 pages
Data Preprocessing Solution-24-37
No ratings yet
Data Preprocessing Solution-24-37
14 pages
CS322 - Lec 3 - S25
No ratings yet
CS322 - Lec 3 - S25
42 pages
QB 2
No ratings yet
QB 2
3 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
Chapter-2 Questionnaire
No ratings yet
Chapter-2 Questionnaire
5 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
54 pages
Data Mining - Lecture 2
No ratings yet
Data Mining - Lecture 2
23 pages
Unit 1 C
No ratings yet
Unit 1 C
63 pages
Week2 2
No ratings yet
Week2 2
25 pages
Data Preprocessing
No ratings yet
Data Preprocessing
54 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
Data Preprocessing
No ratings yet
Data Preprocessing
48 pages
Unit 3
No ratings yet
Unit 3
41 pages
CH2 Data Integration - Transformation
No ratings yet
CH2 Data Integration - Transformation
16 pages
Unit - 2
No ratings yet
Unit - 2
17 pages
Mod1 DM Part2
No ratings yet
Mod1 DM Part2
34 pages
DWDM 2
No ratings yet
DWDM 2
4 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
Oceonology 1-500
No ratings yet
Oceonology 1-500
17 pages
RK Body Merged
No ratings yet
RK Body Merged
10 pages
Defence
No ratings yet
Defence
3 pages
PM Honours
No ratings yet
PM Honours
1 page
1
No ratings yet
1
4 pages
Full CET2024 CS Branches
No ratings yet
Full CET2024 CS Branches
3 pages
Infinity 2 Merged
No ratings yet
Infinity 2 Merged
34 pages
Trigonometry Quiz 4
No ratings yet
Trigonometry Quiz 4
10 pages
Pre Placement 2024 25
No ratings yet
Pre Placement 2024 25
2 pages
Final List
No ratings yet
Final List
6 pages
DL Module 4 Notes
No ratings yet
DL Module 4 Notes
27 pages
Wa0000.
No ratings yet
Wa0000.
1 page
RTA 6th Chapter Notes1
No ratings yet
RTA 6th Chapter Notes1
7 pages
Chapter 7 Notes Final
No ratings yet
Chapter 7 Notes Final
13 pages
Python Installation Tutorial
No ratings yet
Python Installation Tutorial
15 pages
Unit 4
No ratings yet
Unit 4
11 pages

Data Preprocessing Questions

Uploaded by

Data Preprocessing Questions

Uploaded by

Data Preprocessing - Unit 2 Chapter 3 Questions

4. Differentiate between dimensionality reduction and numerosity reduction.

35, 36, 40, 45, 46, 52, 70.

(a) Use smoothing by bin means with bin size 3.

(b) Comment on the effect of smoothing.

2. Normalize the values 200, 300, 400, 600, 1000 using:

(a) Min-max normalization with range [0,1]

(b) Z-score normalization

(c) Decimal scaling normalization.

4. Given attributes: age and body fat for a dataset.

(a) Perform Z-score normalization

(b) Compute correlation coefficient and determine the correlation type.

Apply equal-width and equal-frequency binning.

Comment on the advantages of each.

You might also like