0% found this document useful (0 votes)

11 views4 pages

Solved Data Mining Warehousing Paper

The document outlines key concepts in Data Mining and Warehousing, including the framework of a data warehouse, dimensional modeling, and the differences between OLTP and OLAP systems. It also discusses data mining techniques, metrics, and algorithms such as the Apriori and FP-Growth, as well as classification and clustering methods. Additionally, it highlights the features of data warehouses and the requirements for effective clustering.

Uploaded by

Muskan Dhondney

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views4 pages

Solved Data Mining Warehousing Paper

Uploaded by

Muskan Dhondney

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Solved Paper - Data Mining & Warehousing

Q1(a) Framework of Data Warehouse:

A typical data warehouse has four components: Operational Database, ETL Process, Data

Warehouse (staging, integration, access layers), and front-end tools. [Diagram is usually required].

Q1(b) Dimensional Model:

A data structure optimized for data warehousing tools. Design steps: Choose business process,

Declare grain, Identify dimensions, Identify facts.

Q1(c) OLTP vs OLAP:

OLTP: Real-time, high volume, normalized data.

OLAP: Analytical, historical data, denormalized schema.

Q1(d) EDW Parts:

1. Data Sources, 2. ETL Tools, 3. Staging Area, 4. Data Storage, 5. Metadata, 6. Query Tools.

Q1(e) Star Schema Example:

Fact Table: Transactions (Amount, Date, AccountID)

Dimension Tables: Customer, Time, Branch, AccountType

Q1(f) Hybrid DW Model:

Used when combining top-down and bottom-up approaches. Preferred when flexibility and faster

implementation are required.

Q2(a) Data to be mined:

Patterns, associations, clusters, outliers, predictive models.

Q2(b) Data Mining Metrics:

Support, Confidence, Lift, Accuracy, Precision, Recall, F-measure.

Q2(c) Statistical Description:

Includes measures of central tendency (mean, median), dispersion (variance, std deviation), and

distribution.

Q2(d) Need for Data Cleaning:

To remove noise, handle missing values, correct inconsistencies and improve data quality.

Q2(e) Apriori Algorithm:

Frequent itemsets: {3}, {5}, {2,5}, {1,3}

Rules example: {2}->{5}, Support=50%, Confidence=75%

Q2(f) FP-Growth Tree:

1. Count frequency.

2. Order items.

3. Build tree level-wise.

4. Extract patterns from tree.

Q3(a) Classification vs Prediction:

Classification predicts categorical labels, prediction forecasts continuous values.

Q3(b) Linear Regression:

Models relationship as Y = aX + b. E.g., Predicting sales based on advertising spend.

Q3(c) Classifier Performance:

Metrics: Accuracy, Confusion Matrix, ROC Curve, Precision, Recall.

Q3(d) K-means Steps:

1. Choose k

2. Assign points

3. Update centroids

4. Repeat till convergence.

Q3(e) ID3 Algorithm:

Build decision tree using information gain. Root: Age. Classification: Uses best attributes to classify

buys_computer.

Q3(f) Clustering Applications:

Marketing, Insurance Fraud Detection, Document Categorization, Customer Segmentation.

Q4(a) Features of Data Warehouse:

Subject-oriented, Integrated, Time-variant, Non-volatile.

Q4(b) Attribute Types:

Nominal, Ordinal, Interval, Ratio.

Q4(c) Clustering Requirements:

Scalability, Ability to deal with noise, Interpretability, High dimensionality support.

Q4(d) Granularity of Facts:

Level of detail. Fine granularity gives detailed data. Coarse granularity is summarized.
Q4(e) Association Rule Metrics:

Support: Frequency of itemset. Confidence: Likelihood of consequent given antecedent. Risk: Often

linked with lift or leverage.

Q4(f) Classification Applications:

Spam Detection, Medical Diagnosis, Customer Churn, Credit Scoring.

DMDW 5 Marks Answers
No ratings yet
DMDW 5 Marks Answers
1 page
Himachal Gypsy MGM - 20241014 - 132731 - 0000
No ratings yet
Himachal Gypsy MGM - 20241014 - 132731 - 0000
13 pages
1S00155
No ratings yet
1S00155
5 pages
PNR 216287859
No ratings yet
PNR 216287859
3 pages
LabReport L12 IZMA12YRS F 03 07 202520250703 2 Iuv08c
No ratings yet
LabReport L12 IZMA12YRS F 03 07 202520250703 2 Iuv08c
1 page
Siva
No ratings yet
Siva
4 pages
Technical Recruitment Guide
No ratings yet
Technical Recruitment Guide
45 pages
Fin Ijprems1716970555
No ratings yet
Fin Ijprems1716970555
4 pages
Data Literacy - Course Notes
No ratings yet
Data Literacy - Course Notes
61 pages
BCOM304 Management Information System Unit-4: Multimedia Approach To Information Processing
No ratings yet
BCOM304 Management Information System Unit-4: Multimedia Approach To Information Processing
10 pages
SaurabhWableTechnical Projrct Manager
No ratings yet
SaurabhWableTechnical Projrct Manager
4 pages
Boosting Retail Sales with Business Intelligence
No ratings yet
Boosting Retail Sales with Business Intelligence
8 pages
Understanding Data Structures in Engineering
No ratings yet
Understanding Data Structures in Engineering
39 pages
Business Intelligence Strategy
No ratings yet
Business Intelligence Strategy
3 pages
Informatica Online Training Overview
No ratings yet
Informatica Online Training Overview
3 pages
Advanced ETL Techniques for DWH
No ratings yet
Advanced ETL Techniques for DWH
46 pages
Data Mining Introduction Guide
No ratings yet
Data Mining Introduction Guide
95 pages
Dsbda Unit1
No ratings yet
Dsbda Unit1
232 pages
Sequential Datawarehousing
No ratings yet
Sequential Datawarehousing
25 pages
DW Mod 1
No ratings yet
DW Mod 1
25 pages
Data Mining Worksheet One
No ratings yet
Data Mining Worksheet One
2 pages
Data Warehouse Practice Questions
No ratings yet
Data Warehouse Practice Questions
1 page
Deepthi - Education
No ratings yet
Deepthi - Education
3 pages
Enterprise Resource Planning System
No ratings yet
Enterprise Resource Planning System
4 pages
Service Master Records Guide
No ratings yet
Service Master Records Guide
43 pages
Artificial Int Syllabus Sem V Mumbai University
No ratings yet
Artificial Int Syllabus Sem V Mumbai University
39 pages
Data Warehouse Architecture Explained
No ratings yet
Data Warehouse Architecture Explained
12 pages
Koe081: Cloud Computing: Detailed Syllabus 3-1-0 Unit Topic Proposed I
No ratings yet
Koe081: Cloud Computing: Detailed Syllabus 3-1-0 Unit Topic Proposed I
3 pages
Obia Overview Sreekanth Jala
No ratings yet
Obia Overview Sreekanth Jala
45 pages
20463C Curso SQL Server
No ratings yet
20463C Curso SQL Server
130 pages
ETL Development Assignment with SSIS
No ratings yet
ETL Development Assignment with SSIS
6 pages
Teradata Warehouse Miner
No ratings yet
Teradata Warehouse Miner
3 pages
Azure Data Engineer Interview Guide
No ratings yet
Azure Data Engineer Interview Guide
2 pages
Unit-5-Topic 2 Clinical Data Warehouses
No ratings yet
Unit-5-Topic 2 Clinical Data Warehouses
8 pages
Fixing SSAS Duplicate Attribute Errors
No ratings yet
Fixing SSAS Duplicate Attribute Errors
5 pages