0% found this document useful (0 votes)

15 views4 pages

Answer Midterm 2024 - 11 - 19

The document discusses various concepts related to decision trees, including the calculation of Gini index and Gini gain for attributes A and B, with B being preferred for splitting due to higher Gini gain. It also covers the Simple Matching Coefficient (SMC) and Jaccard Index for comparing binary arrays, highlighting their differences and lack of conflict. Additionally, it addresses data discretization methods, attribute classification, and the comparison of underfitting and overfitting in models.

Uploaded by

Ahmed Ibrahim Ghnnam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views4 pages

Answer Midterm 2024 - 11 - 19

Uploaded by

Ahmed Ibrahim Ghnnam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Midterm 2024 – 11 – 19

Q1. Consider the following data set for a binary class problem.
a) Calculate the gain in the Gini index when splitting on A and B. A B Class Label
𝒄−𝟏 1 T F +
𝑮𝒊𝒏𝒊 = 𝟏 − ∑ 𝒑𝒊 𝒕 𝟐 2 T T +
𝒊=𝟎
3 T T +
4 T F -
5 T T +
6 F F -
Calculate Gini for Parent
7 F F -
PARENT PI 8 F F -
+ 4 4/10 = 0.4 9 T T -
10 T F -
- 6 6 / 10 = 0.6
GINI = 1 – (0.4) – (0.6)2 = 0.48
2

Calculate Gini Gain for A

A NODE 01 (T) NODE 02 (F)

+ 4 0
- 3 3
GINI 1 – (4/7) – (3/7)2 = 24/49 = 0.489
2
1 – (0/3) – (3/3)2 = 0
2

WEIGHTED GINI = (7/10) * 0.489 + (3/10) * 0 = 0.342

GINI GAIN = 0.48 – 0.342 = 0.138

Calculate Gini Gain for B

B NODE 01 (T) NODE 02 (F)

+ 3 1
- 1 5
GINI 1 – (3/4) – (1/4)2 = 3/8 = 0.375
2
1 – (1/6) – (5/6)2 = 5/18 = 0.278
2

WEIGHTED GINI = (4/10) * 0.375 + (6/10) * 0.278 = 0.316

GINI GAIN = 0.48 – 0.316 = 0.164

b) Which attribute would the decision tree induction algorithm choose for splitting? Why?
→ The algorithm would choose Attribute B for splitting because it has a higher Gini gain (0.164) compared to
Attribute A (0.138), which indicates a better split for reducing impurity.

َ ‫علَ ْي ِه َو‬
ْ َ ‫س ِل ُموا ت‬
(56) ‫سلِي ًما‬ َ ‫علَى النَّ ِبي ِ ۚ يَا أَيُّهَا الَّ ِذينَ آ َمنُوا‬
َ ‫صلُّوا‬ َ َ‫صلُّون‬
َ ُ‫َّللا َو َم ََلئِ َكتَهُ ي‬
َ َّ َّ‫إِن‬
Q2. Consider the following binary arrays for two data samples:

x = [1, 1, 0, 0, 0, 1, 1, 0, 1, 0]
y = [0, 1, 1, 0, 0, 1, 1, 0, 0, 1]
a) Calculate the Simple Matching Coefficient (SMC) and the Jaccard Index between x and y.

f00 = 3, f01 = 2, f10 = 2, f11 = 3

𝑓00 + 𝑓11 3 + 3
SMC = = = 0.6
𝑓00 + 𝑓01 + 𝑓10 + 𝑓11 3 + 2 + 2 + 3
𝑓11 3 3
Jaccard = = = = 0.428
𝑓01 + 𝑓10 + 𝑓11 2 + 2 + 3 7

b) What can we conclude from the calculated coefficients?

→ SMC shows more similarity because it includes both 0-0 and 1-1 matches.

→ Jaccard is stricter, focusing only on 1-1 matches. So, it shows less similarity.

c) Are the calculated coefficients different? If yes, is there any conflict between them? Why? Why not?

→ Yes, they are different (SMC = 0.6, Jaccard = 0.428).

→ There is no conflict because:

- SMC considers both 1-1 and 0-0 matches.

- Jaccard only considers 1-1 matches.

→ The difference is expected because they measure similarity in different ways.

َ ‫علَ ْي ِه َو‬
ْ َ ‫س ِل ُموا ت‬
(56) ‫سلِي ًما‬ َ ‫علَى النَّ ِبي ِ ۚ يَا أَيُّهَا الَّ ِذينَ آ َمنُوا‬
َ ‫صلُّوا‬ َ َ‫صلُّون‬
َ ُ‫َّللا َو َم ََلئِ َكتَهُ ي‬
َ َّ َّ‫إِن‬
Q3. (The three images represent a dataset which consists of 4 groups of dots with a
different color each)

[Equal Interval Width] [Equal Frequency] [K-mean]

a) What is the process that converts this unlabeled dataset into only 3 discrete values?

→ Discretization
b) How can this be achieved using 3 different methods? Apply only one method on one image.

→ Equal Width: Divides the range of data into equal-size intervals.

→ Equal Frequency: Divide the data so that each interval has the same number of points.

→ K-mean: Group data into clusters based on data similarity.

c) Which is the best method?

→ K-mean: preferred for clustering when the data forms distinct groups.

→ Equal Width and Equal Frequency can be simpler and effective for distributed data.

Q4. Classify the following attributes as binary, discrete, or continuous. Also classify them
as qualitative (nominal or ordinal) or quantitative (interval or ratio).
Example: Age in years. Answer: Continuous, quantitative, ratio
a) Time in terms of AM or PM. → Binary, qualitative, nominal

b) Angles as measured in degrees between 0° and 360°. → continuous, quantitative, interval

c) bronze, silver, and gold medals as awarded at the Olympics. → discrete, qualitative, ordinal

d) Height above sea level. → continuous, quantitative, ratio

e) Number of patients in a hospital. → discrete, quantitative, ratio

f) Academic numbers (ID) for students. → discrete, qualitative, nominal

َ ‫علَ ْي ِه َو‬
ْ َ ‫س ِل ُموا ت‬
(56) ‫سلِي ًما‬ َ ‫علَى النَّ ِبي ِ ۚ يَا أَيُّهَا الَّ ِذينَ آ َمنُوا‬
َ ‫صلُّوا‬ َ َ‫صلُّون‬
َ ُ‫َّللا َو َم ََلئِ َكتَهُ ي‬
َ َّ َّ‫إِن‬
Q5.
a) Compare Underfitting and Overfitting.

→ Overfitting: The model is too complex and learn the training data too well, including the noise, which
makes it fails on new data

→ Underfitting: The model is too simple and fails to capture the pattern well, leading to poor
performance in both training and new data.

b) What is the main drawback of Pearson correlation? How to overcome this drawback?

→ The main drawback of Pearson correlation only measures linear relationship and doesn’t capture non-
linear relationship.

→ To overcome this, use other methods like mutual information that capture non-linear relationships

َ ‫علَ ْي ِه َو‬
ْ َ ‫س ِل ُموا ت‬
(56) ‫سلِي ًما‬ َ ‫علَى النَّ ِبي ِ ۚ يَا أَيُّهَا الَّ ِذينَ آ َمنُوا‬
َ ‫صلُّوا‬ َ َ‫صلُّون‬
َ ُ‫َّللا َو َم ََلئِ َكتَهُ ي‬
َ َّ َّ‫إِن‬

Questions For Mid & Answer
No ratings yet
Questions For Mid & Answer
3 pages
Rule Ch2
No ratings yet
Rule Ch2
12 pages
K-NN and Clustering Concepts Explained
No ratings yet
K-NN and Clustering Concepts Explained
9 pages
1 Introduction
No ratings yet
1 Introduction
9 pages
Data Warehousing & Mining Assignment
No ratings yet
Data Warehousing & Mining Assignment
10 pages
4 5998881474881786338
No ratings yet
4 5998881474881786338
15 pages
Topics To Be Covered
No ratings yet
Topics To Be Covered
58 pages
Data Mining Zaina
No ratings yet
Data Mining Zaina
78 pages
Cluster Analysis in Construction
No ratings yet
Cluster Analysis in Construction
23 pages
ML Clustering Algorithm
No ratings yet
ML Clustering Algorithm
29 pages
DS Mod 2 Ese QB
No ratings yet
DS Mod 2 Ese QB
27 pages
CH 2
No ratings yet
CH 2
35 pages
Stat 2
No ratings yet
Stat 2
109 pages
Statistics for Teachers
100% (5)
Statistics for Teachers
124 pages
ML12 Clustering
No ratings yet
ML12 Clustering
34 pages
IDS Webinar2 Annotated
No ratings yet
IDS Webinar2 Annotated
24 pages
7 - Descriptive Analysis - Hypothesis Analysis - Chi Square
No ratings yet
7 - Descriptive Analysis - Hypothesis Analysis - Chi Square
29 pages
ML Unit-5
No ratings yet
ML Unit-5
12 pages
DM-I Q Paper 2024
No ratings yet
DM-I Q Paper 2024
12 pages
Understanding Frequency Distribution Concepts
No ratings yet
Understanding Frequency Distribution Concepts
19 pages
Data Mining Assignment Guide
No ratings yet
Data Mining Assignment Guide
4 pages
Data Mining: Clustering Essentials
No ratings yet
Data Mining: Clustering Essentials
18 pages
6-2 Statistics & Probability
No ratings yet
6-2 Statistics & Probability
32 pages
Data Mining Exam for B.Sc. Students
No ratings yet
Data Mining Exam for B.Sc. Students
6 pages
تحليل البيانات السعيدة ف2 2022النموذج الاصلي
No ratings yet
تحليل البيانات السعيدة ف2 2022النموذج الاصلي
1 page
Mid Term 1 PDF
No ratings yet
Mid Term 1 PDF
38 pages
(Fall 2011) CS-402 Data Mining - Final Exam-SUB - v03
No ratings yet
(Fall 2011) CS-402 Data Mining - Final Exam-SUB - v03
6 pages
ISM - Session 1 - May 2025
No ratings yet
ISM - Session 1 - May 2025
54 pages
IT326 - Ch2
No ratings yet
IT326 - Ch2
44 pages
CS6ML Assignment1
No ratings yet
CS6ML Assignment1
4 pages
Applied Statistics
No ratings yet
Applied Statistics
10 pages
Get To Know About Data
No ratings yet
Get To Know About Data
25 pages
Discretization of Continuous Attributes
No ratings yet
Discretization of Continuous Attributes
38 pages
Descriptive Statistics Guide
No ratings yet
Descriptive Statistics Guide
28 pages
Know - Your - Data and Rescaling
No ratings yet
Know - Your - Data and Rescaling
72 pages
MIDTERM - 1. Measures-of-Central-Tendency-and-Position
No ratings yet
MIDTERM - 1. Measures-of-Central-Tendency-and-Position
56 pages
Data Analytics & Decision Trees
No ratings yet
Data Analytics & Decision Trees
51 pages
ةداملا مسا (Subject) ثحبلا ناونع (Research Title) Graphs and its importance
No ratings yet
ةداملا مسا (Subject) ثحبلا ناونع (Research Title) Graphs and its importance
18 pages
Unit II Notes
No ratings yet
Unit II Notes
38 pages
Module 3
No ratings yet
Module 3
66 pages
Standardization and Its Effects On K-Means Clustering Algorithm
No ratings yet
Standardization and Its Effects On K-Means Clustering Algorithm
6 pages
Bba QT
No ratings yet
Bba QT
5 pages
Similarity and Disimilarity Measures
No ratings yet
Similarity and Disimilarity Measures
2 pages
Understanding Score Distributions and Statistics
No ratings yet
Understanding Score Distributions and Statistics
55 pages
AI Reasoning & Search Techniques
No ratings yet
AI Reasoning & Search Techniques
54 pages
Lec. No. 3 ANALYSIS OF MEASUREMENT DATA
No ratings yet
Lec. No. 3 ANALYSIS OF MEASUREMENT DATA
54 pages
Statistics Overview
No ratings yet
Statistics Overview
13 pages
Module 3
No ratings yet
Module 3
66 pages
Clustering & Classification Metrics
No ratings yet
Clustering & Classification Metrics
13 pages
3rd Sem Fatgghu
No ratings yet
3rd Sem Fatgghu
11 pages
الاحصاء الوصفي المستوي الاول لغة
No ratings yet
الاحصاء الوصفي المستوي الاول لغة
334 pages
Lesson-2 Descriptive-Statistics Lecture
No ratings yet
Lesson-2 Descriptive-Statistics Lecture
27 pages
Understanding Cluster Analysis Techniques
No ratings yet
Understanding Cluster Analysis Techniques
44 pages
الإحصاء ترجمة + الحل
No ratings yet
الإحصاء ترجمة + الحل
16 pages
02data - 7 7 25
No ratings yet
02data - 7 7 25
63 pages
Basics of Statistics Unit-I SCLS
0% (1)
Basics of Statistics Unit-I SCLS
127 pages
Statistics Batch4 Lecture
No ratings yet
Statistics Batch4 Lecture
82 pages
K Medoids
No ratings yet
K Medoids
101 pages
Basics of Statistics Unit-I SCLS
No ratings yet
Basics of Statistics Unit-I SCLS
135 pages
Lec4 Designpattern
No ratings yet
Lec4 Designpattern
48 pages
Sen QB5
No ratings yet
Sen QB5
18 pages
Lec5 Flask
No ratings yet
Lec5 Flask
5 pages
MNU CAI ICI334 Lec4&5
No ratings yet
MNU CAI ICI334 Lec4&5
33 pages
Assignment 1
No ratings yet
Assignment 1
12 pages
MNU CAI ICI334 Lec7
No ratings yet
MNU CAI ICI334 Lec7
30 pages
BDA Lec10
No ratings yet
BDA Lec10
33 pages
Sodapdf
No ratings yet
Sodapdf
4 pages
Big Data Analytics Course Overview
No ratings yet
Big Data Analytics Course Overview
25 pages
BDA Lec3
No ratings yet
BDA Lec3
48 pages
AI Lecture 9
No ratings yet
AI Lecture 9
39 pages
BDA Lec4
No ratings yet
BDA Lec4
40 pages
Lecture 9 - MapReduce
No ratings yet
Lecture 9 - MapReduce
50 pages
Lecture 02,03
No ratings yet
Lecture 02,03
54 pages
Lec. 3
No ratings yet
Lec. 3
18 pages
Lecture 7 - Wide Column Stores - Part 1
No ratings yet
Lecture 7 - Wide Column Stores - Part 1
30 pages
Machine Learning for At-Risk Students
No ratings yet
Machine Learning for At-Risk Students
20 pages
Enzymology
No ratings yet
Enzymology
17 pages
Vacuum Circuit Breakers 5kV and 15kV, Type GMI: Power Transmission and Distribution, Inc
No ratings yet
Vacuum Circuit Breakers 5kV and 15kV, Type GMI: Power Transmission and Distribution, Inc
52 pages
Prelims Short Quiz 1
No ratings yet
Prelims Short Quiz 1
3 pages
A Mathematical Simulation Model of A CH-47B Helicopter
No ratings yet
A Mathematical Simulation Model of A CH-47B Helicopter
136 pages
Masterformat-2016 (HVAC)
No ratings yet
Masterformat-2016 (HVAC)
11 pages
Using The Apple Dylan Development Environment
No ratings yet
Using The Apple Dylan Development Environment
298 pages
Simple Harmonic Motion Questions
No ratings yet
Simple Harmonic Motion Questions
6 pages
Electromagnetic Wave Parameters
No ratings yet
Electromagnetic Wave Parameters
3 pages
Calculus-Based Physics 2 PHYS 002 (TIP Reviewer)
No ratings yet
Calculus-Based Physics 2 PHYS 002 (TIP Reviewer)
28 pages
X32
No ratings yet
X32
3 pages
ETL Testing Goals and Strategies
No ratings yet
ETL Testing Goals and Strategies
3 pages
TTD-41T, TTD-61R (Ce Sar Mpe) - en 50392
No ratings yet
TTD-41T, TTD-61R (Ce Sar Mpe) - en 50392
6 pages
Home Store Blog Schematics Tutorials Downloads Contact: Ba1404 Hi-Fi Stereo FM Transmitter 88 - 108 MHZ
No ratings yet
Home Store Blog Schematics Tutorials Downloads Contact: Ba1404 Hi-Fi Stereo FM Transmitter 88 - 108 MHZ
2 pages
Driving School Administration and Booking Management System
No ratings yet
Driving School Administration and Booking Management System
32 pages
Rangkaian Inverter
No ratings yet
Rangkaian Inverter
42 pages
Radar Esm and Elint Receivers
No ratings yet
Radar Esm and Elint Receivers
6 pages
Architectural Aesthetics & Structure
No ratings yet
Architectural Aesthetics & Structure
10 pages
Cooling Water Flushing Block C.
No ratings yet
Cooling Water Flushing Block C.
4 pages
The Electrooculogram (EOG)
No ratings yet
The Electrooculogram (EOG)
34 pages
Data Structures: Key Concepts and Comparisons
No ratings yet
Data Structures: Key Concepts and Comparisons
3 pages
GPT-3 for Low-Data Chemistry Discovery
No ratings yet
GPT-3 for Low-Data Chemistry Discovery
99 pages
Horizontal Format - Calculating Lengths and Angles in Shapes
No ratings yet
Horizontal Format - Calculating Lengths and Angles in Shapes
2 pages
Introduction To Databases Part 1
No ratings yet
Introduction To Databases Part 1
78 pages
93k TH Extension
No ratings yet
93k TH Extension
5 pages
CS3491 CCS Iat-2 QP (2024)
No ratings yet
CS3491 CCS Iat-2 QP (2024)
3 pages
Emt Mcqs
No ratings yet
Emt Mcqs
9 pages
JR Inter (Batch-I) Pre Final-1 Papers
No ratings yet
JR Inter (Batch-I) Pre Final-1 Papers
8 pages
EuroLoop: Gas & Oil Flow Calibration
No ratings yet
EuroLoop: Gas & Oil Flow Calibration
2 pages
Dynamic Market Risk and Portfolio Choice
No ratings yet
Dynamic Market Risk and Portfolio Choice
18 pages