0% found this document useful (0 votes)

29 views5 pages

Data Mining Warehousing DistributedDBMS Summary

The document covers data mining, data warehousing, and distributed DBMS, explaining key concepts, functions, and applications of each. Data mining involves extracting patterns from large datasets, while data warehouses serve as centralized repositories for analytical processing. Distributed DBMS manages data across locations, with various architectures and types, ensuring efficient query processing and data consistency.

Uploaded by

Rao Talha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

29 views5 pages

Data Mining Warehousing DistributedDBMS Summary

Uploaded by

Rao Talha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Data Mining, Data Warehousing, and

Distributed DBMS - Summary

1. Data Mining: Concepts and Techniques
What is Data Mining?

Data mining is the process of extracting useful, non-trivial, and previously unknown
patterns from large datasets.
Example: Predicting which customers are likely to buy a new product based on past
purchases.

Knowledge Discovery in Databases (KDD)

KDD includes steps like data cleaning, integration, selection, mining, pattern evaluation, and
presentation.
Example: Medical data preprocessing and mining patterns in patient symptoms.

Evolution of Database Technologies

1960s–1980s: Basic DBMS like IMS, RDBMS

1990s: Data mining, multimedia DBs
2000s+: Stream data, Web mining, Big Data

Data Mining Functions

1. Generalization: Summarize data. E.g., average sales by region.

2. Association & Correlation: Discover co-occurrence. E.g., bread → butter.
3. Classification: Predict labels. E.g., spam detection.
4. Clustering: Group similar items. E.g., customer segmentation.
5. Outlier Detection: Identify anomalies. E.g., fraud detection.
6. Trend Analysis: Sequential pattern recognition. E.g., TV → speakers.

Applications of Data Mining

Web analysis, Market basket analysis, Medical diagnosis, Fraud detection.

Issues in Data Mining

Methodology, scalability, data diversity, privacy, performance.

2. Data Warehouse
What is a Data Warehouse?
A centralized system storing integrated data from multiple sources for analysis and BI.

Types of Data Warehouses

1. EDW: Org-wide repository.

2. ODS: Real-time data for ops.
3. Data Mart: Subset for departments.
4. Virtual DW: No physical storage.
5. Cloud DW: Hosted online.
6. Federated DW: Data remains at source.

Case Study: XYZ Retail

XYZ implemented ETL, centralized DW, BI tools, and governance for better reporting and
decision-making.

3. Distributed DBMS Architectures

What is Distributed DBMS?

It manages data distributed across locations as one database.

Architectures

1. Client-Server
2. Peer-to-Peer
3. Three-Tier

Types of DDBMS

1. Homogeneous (same DBMS)

2. Heterogeneous (different DBMS)

Data Fragmentation

1. Horizontal: Row-wise
2. Vertical: Column-wise
3. Mixed

Replication

1. Full: All data copied

2. Partial: Some data replicated

Query Processing

Optimize queries to reduce communication across nodes.

Concurrency and Recovery

Use locking, timestamps, and protocols like 2PC to ensure consistency.

Data Warehousing Summary

1. What is a Data Warehouse?

A data warehouse is a centralized repository separate from operational databases. It

integrates data from various sources and supports analytical processing of historical data.

2. Major Features of Data Warehouse

🔹 Subject-oriented: Organized by key subjects like customer, product, and sales.

🔹 Integrated: Combines data from different sources using cleaning and integration.

🔹 Time-variant: Stores data for historical analysis (e.g., 5–10 years).

🔹 Nonvolatile: Data is stable and separate from transactional systems; mainly supports
reading and loading.

3. Uses of Data Warehouses in Organizations

• Analyze customer buying behavior

• Evaluate and reposition product strategies

• Optimize operations and identify profit sources

• Manage customer relationships and corporate assets

4. Traditional vs. Data Warehousing Approaches

🔹 Traditional: Query-driven; uses wrappers/mediators to fetch data from sources in real-

time.

🔹 Data Warehouse: Update-driven; integrates data beforehand for direct querying.

5. OLTP vs. OLAP

🔹 OLTP: Handles day-to-day operations (e.g., payroll, inventory); current, detailed data.

🔹 OLAP: Supports analysis and decision-making; large historical datasets,

summary/aggregated views.

Key Differences:

• OLTP is customer-oriented; OLAP is market-oriented.

• OLTP uses ER model; OLAP uses star/snowflake schema.

• OLTP handles short, atomic transactions; OLAP supports complex queries (read-heavy).

6. Data Warehousing: Multitiered Architecture

🔹 Top-down: Centralized warehouse first; systematic but costly and inflexible.

🔹 Bottom-up: Data marts first; cheaper and flexible but harder to integrate later.

Data, Information, and Knowledge - Summary

1. Definitions

🔹 Data: Raw, unprocessed facts (e.g., 3, 6, 9; cat, dog; 161.2, 175.3).

🔹 Information: Processed data with meaning (e.g., those numbers are student heights).

🔹 Knowledge: Application of information to solve problems or gain insights (e.g., tallest

student is 175.3cm).

Equations: Data + Meaning = Information | Information + Use = Knowledge

2. Types of Knowledge

🔹 Explicit Knowledge: Easy to share (e.g., facts in books).

🔹 Tacit Knowledge: Gained through experience, harder to communicate (e.g., baking,

programming).

3. Data Categorization

🔹 Structured vs. Unstructured: Tables vs. text/images

🔹 Quantitative vs. Qualitative: Numbers vs. opinions

🔹 Primary vs. Secondary: Collected first-hand vs. from existing sources

🔹 Internal vs. External: Organization’s data vs. third-party sources

🔹 Time-series vs. Cross-sectional: Over time vs. at a single point

4. Where Data Resides

🔹 Databases: Structured storage

🔹 Data Warehouses: Analytical storage

🔹 Data Lakes: Raw data storage

🔹 Cloud Storage: Scalable online storage (e.g., AWS S3)

🔹 File Systems & Devices: HDDs, SSDs, USBs

5. Do We Need a Server?

Not always, but beneficial for:

• Scalability

• Centralized data management

• Access control & security

• Redundancy & backup

6. Homogeneous vs. Heterogeneous Data

🔹 Homogeneous: Same type/format (e.g., customer info table)

🔹 Heterogeneous: Mixed types/formats (e.g., images + text + audio)

7. Real-World Use Case: Healthcare

Hospitals collect data from EHRs, devices, wearables. They use:

• ML for risk prediction

• NLP for patient feedback analysis

• Computer vision for X-ray/MRI analysis

Elaborated DWH DataMining Assignment Answers
No ratings yet
Elaborated DWH DataMining Assignment Answers
8 pages
Internship
No ratings yet
Internship
12 pages
Data Warehouse Overview and Applications
No ratings yet
Data Warehouse Overview and Applications
17 pages
Data Mining and Warehouse Techniques
No ratings yet
Data Mining and Warehouse Techniques
70 pages
Data Mininng
No ratings yet
Data Mininng
11 pages
Datawarehouse and Data Mining Final Notes
No ratings yet
Datawarehouse and Data Mining Final Notes
9 pages
Big Query
No ratings yet
Big Query
8 pages
Difference Between OLAP and OLTP: Feature OLAP (Online Analytical Processing) OLTP (Online Transaction Processing)
No ratings yet
Difference Between OLAP and OLTP: Feature OLAP (Online Analytical Processing) OLTP (Online Transaction Processing)
34 pages
03-Unit 2
No ratings yet
03-Unit 2
79 pages
Data Warehousing Fundamentals Overview
100% (1)
Data Warehousing Fundamentals Overview
96 pages
Lecture 1 & 2
No ratings yet
Lecture 1 & 2
14 pages
DWDM Fresh Notes For Unit 1, Unit 2, Unit 3
No ratings yet
DWDM Fresh Notes For Unit 1, Unit 2, Unit 3
54 pages
Chapter 6-Data Warehouse and Datamining
No ratings yet
Chapter 6-Data Warehouse and Datamining
38 pages
DWDM
No ratings yet
DWDM
19 pages
DMT Unit-1
No ratings yet
DMT Unit-1
59 pages
Data Warehousing and Online Analytical Processing
No ratings yet
Data Warehousing and Online Analytical Processing
31 pages
Building a Data Warehouse Overview
No ratings yet
Building a Data Warehouse Overview
60 pages
Data Warehouse Fundamentals Overview
No ratings yet
Data Warehouse Fundamentals Overview
26 pages
CH 1
No ratings yet
CH 1
53 pages
Data Warehousing & Data Mining
100% (1)
Data Warehousing & Data Mining
22 pages
Data Warehousing Essentials
No ratings yet
Data Warehousing Essentials
19 pages
1.introduction To Data Warehouse
No ratings yet
1.introduction To Data Warehouse
26 pages
Data Mining and Warehousing Overview
No ratings yet
Data Mining and Warehousing Overview
15 pages
Business Analytics
No ratings yet
Business Analytics
3 pages
Week 02 Part 01
No ratings yet
Week 02 Part 01
15 pages
Data Warehouse and Data Mining
No ratings yet
Data Warehouse and Data Mining
12 pages
Unit 1-1
No ratings yet
Unit 1-1
60 pages
Unit 5 Notes
No ratings yet
Unit 5 Notes
19 pages
Data Warehousing for IT Students
No ratings yet
Data Warehousing for IT Students
64 pages
Data Warehousing and Mining Essentials
No ratings yet
Data Warehousing and Mining Essentials
31 pages
Data Warehousing
100% (1)
Data Warehousing
51 pages
DM Unit 2
No ratings yet
DM Unit 2
21 pages
Module 3 DM
No ratings yet
Module 3 DM
9 pages
Understanding Data Mining and Databases
No ratings yet
Understanding Data Mining and Databases
13 pages
Data Mining & KDD Overview
No ratings yet
Data Mining & KDD Overview
63 pages
Data Warehouse References
No ratings yet
Data Warehouse References
40 pages
Ba Important
No ratings yet
Ba Important
13 pages
Data Warehousing & Mining Notes PDF
No ratings yet
Data Warehousing & Mining Notes PDF
56 pages
Data Mining and Warehouse Insights
No ratings yet
Data Mining and Warehouse Insights
54 pages
Data Warehousing & Mining Course
No ratings yet
Data Warehousing & Mining Course
169 pages
Data Mining in Insurance Analysis
No ratings yet
Data Mining in Insurance Analysis
11 pages
Module 1 Chapter 2
No ratings yet
Module 1 Chapter 2
53 pages
BI Unit 1 Data Warehouse
No ratings yet
BI Unit 1 Data Warehouse
169 pages
Day 06
No ratings yet
Day 06
34 pages
DWDM
No ratings yet
DWDM
14 pages
Unit 2 Part1
No ratings yet
Unit 2 Part1
142 pages
Pre 6 Finals
No ratings yet
Pre 6 Finals
9 pages
??? ????????? ???
No ratings yet
??? ????????? ???
21 pages
Wa0033.
No ratings yet
Wa0033.
26 pages
BI and Data Warehousing Overview
100% (1)
BI and Data Warehousing Overview
101 pages
DW Unit I Notes
No ratings yet
DW Unit I Notes
28 pages
Database 4
No ratings yet
Database 4
35 pages
DWDM Unit 1 2 GPT Notes
No ratings yet
DWDM Unit 1 2 GPT Notes
22 pages
CS 2208 Data Mining and Warehousing Notes
No ratings yet
CS 2208 Data Mining and Warehousing Notes
14 pages
Data Warehousing AND Data Mining: S. Sudarshan Krithi Ramamritham
No ratings yet
Data Warehousing AND Data Mining: S. Sudarshan Krithi Ramamritham
169 pages
Advanced Calculus and Complex Analysis Sem
No ratings yet
Advanced Calculus and Complex Analysis Sem
4 pages
Food Preservation Techniques Explained
No ratings yet
Food Preservation Techniques Explained
12 pages
Journalizing
No ratings yet
Journalizing
5 pages
Embedded System & IOT Internship Summery
No ratings yet
Embedded System & IOT Internship Summery
28 pages
Jazz - Wikipedia, The Free Encyclopedia
No ratings yet
Jazz - Wikipedia, The Free Encyclopedia
43 pages
GDPR Compliance Steps for Organizations
No ratings yet
GDPR Compliance Steps for Organizations
14 pages
Comprehensive Color Reference Guide
No ratings yet
Comprehensive Color Reference Guide
1 page
Sony BDP-S370 Blu-Ray Player Manual
No ratings yet
Sony BDP-S370 Blu-Ray Player Manual
39 pages
Hamraki Rag February 2010 Issue
No ratings yet
Hamraki Rag February 2010 Issue
20 pages
Powerlifting Training Guide
100% (1)
Powerlifting Training Guide
3 pages
Class 9 Maths Holiday 2023 HW
No ratings yet
Class 9 Maths Holiday 2023 HW
12 pages
Extra Work - Jennifer Marina Chavez Carcamo
No ratings yet
Extra Work - Jennifer Marina Chavez Carcamo
5 pages
Soal Bahasa Inggris Kelas6 Kunci
No ratings yet
Soal Bahasa Inggris Kelas6 Kunci
5 pages
A Legal Analysis On The Issues Involving The Wreck Removal Convention A Philippine Perspective
100% (1)
A Legal Analysis On The Issues Involving The Wreck Removal Convention A Philippine Perspective
32 pages
Cooking Theory & Food Science Syllabus
No ratings yet
Cooking Theory & Food Science Syllabus
20 pages
Enhanced Anomaly Detection Framework For 6G Software-Defined Networks: Integration of Machine Learning, Deep Neural Networks, and Dynamic Telemetry
No ratings yet
Enhanced Anomaly Detection Framework For 6G Software-Defined Networks: Integration of Machine Learning, Deep Neural Networks, and Dynamic Telemetry
8 pages
Practical Exercise 1st Year 2022-2023
No ratings yet
Practical Exercise 1st Year 2022-2023
2 pages
Ethiopian Microfinance Regulation
No ratings yet
Ethiopian Microfinance Regulation
28 pages
Store Location and Site Evaluation
100% (1)
Store Location and Site Evaluation
3 pages
Whites Hill Reserve Track Map
No ratings yet
Whites Hill Reserve Track Map
7 pages
Gaurav Pandey
No ratings yet
Gaurav Pandey
2 pages
Lis Vol 1 (No Key)
No ratings yet
Lis Vol 1 (No Key)
59 pages
Grammar Practice for ESL Students
No ratings yet
Grammar Practice for ESL Students
4 pages
Anuj - Singh - Resume - Anuj Singh
No ratings yet
Anuj - Singh - Resume - Anuj Singh
1 page
Internship On Unilever
No ratings yet
Internship On Unilever
57 pages
Relational Model and Normal Forms - DPP 01
No ratings yet
Relational Model and Normal Forms - DPP 01
4 pages
Professional Jewelry Making Manual
100% (4)
Professional Jewelry Making Manual
748 pages
Territoriality in Taxation Law
No ratings yet
Territoriality in Taxation Law
3 pages
Chemistry Exam Solutions
No ratings yet
Chemistry Exam Solutions
40 pages

Data Mining Warehousing DistributedDBMS Summary

Uploaded by

Data Mining Warehousing DistributedDBMS Summary

Uploaded by

Data Mining, Data Warehousing, and

Distributed DBMS - Summary

Knowledge Discovery in Databases (KDD)

Evolution of Database Technologies

1960s–1980s: Basic DBMS like IMS, RDBMS

Data Mining Functions

1. Generalization: Summarize data. E.g., average sales by region.

Applications of Data Mining

Web analysis, Market basket analysis, Medical diagnosis, Fraud detection.

Issues in Data Mining

Methodology, scalability, data diversity, privacy, performance.

Types of Data Warehouses

1. EDW: Org-wide repository.

Case Study: XYZ Retail

3. Distributed DBMS Architectures

It manages data distributed across locations as one database.

1. Homogeneous (same DBMS)

1. Full: All data copied

Optimize queries to reduce communication across nodes.

Concurrency and Recovery

Data Warehousing Summary

1. What is a Data Warehouse?

A data warehouse is a centralized repository separate from operational databases. It

2. Major Features of Data Warehouse

🔹 Subject-oriented: Organized by key subjects like customer, product, and sales.

🔹 Time-variant: Stores data for historical analysis (e.g., 5–10 years).

3. Uses of Data Warehouses in Organizations

• Analyze customer buying behavior

• Evaluate and reposition product strategies

• Optimize operations and identify profit sources

• Manage customer relationships and corporate assets

4. Traditional vs. Data Warehousing Approaches

🔹 Traditional: Query-driven; uses wrappers/mediators to fetch data from sources in real-

🔹 Data Warehouse: Update-driven; integrates data beforehand for direct querying.

5. OLTP vs. OLAP

🔹 OLAP: Supports analysis and decision-making; large historical datasets,

• OLTP is customer-oriented; OLAP is market-oriented.

• OLTP uses ER model; OLAP uses star/snowflake schema.

6. Data Warehousing: Multitiered Architecture

🔹 Top-down: Centralized warehouse first; systematic but costly and inflexible.

Data, Information, and Knowledge - Summary

🔹 Data: Raw, unprocessed facts (e.g., 3, 6, 9; cat, dog; 161.2, 175.3).

🔹 Knowledge: Application of information to solve problems or gain insights (e.g., tallest

Equations: Data + Meaning = Information | Information + Use = Knowledge

🔹 Explicit Knowledge: Easy to share (e.g., facts in books).

🔹 Tacit Knowledge: Gained through experience, harder to communicate (e.g., baking,

🔹 Structured vs. Unstructured: Tables vs. text/images

🔹 Quantitative vs. Qualitative: Numbers vs. opinions

🔹 Primary vs. Secondary: Collected first-hand vs. from existing sources

🔹 Internal vs. External: Organization’s data vs. third-party sources

🔹 Time-series vs. Cross-sectional: Over time vs. at a single point

4. Where Data Resides

🔹 Databases: Structured storage

🔹 Data Warehouses: Analytical storage

🔹 Data Lakes: Raw data storage

🔹 Cloud Storage: Scalable online storage (e.g., AWS S3)

Not always, but beneficial for:

• Centralized data management

• Access control & security

• Redundancy & backup

6. Homogeneous vs. Heterogeneous Data

🔹 Homogeneous: Same type/format (e.g., customer info table)

🔹 Heterogeneous: Mixed types/formats (e.g., images + text + audio)

7. Real-World Use Case: Healthcare

Hospitals collect data from EHRs, devices, wearables. They use:

• ML for risk prediction

• NLP for patient feedback analysis

• Computer vision for X-ray/MRI analysis

You might also like