Module1 Reviewer

The document outlines various data set types, including discretization, record data, and graphs, along with important characteristics of structured data such as dimensionality and sparsity. It also covers data preprocessing techniques, data warehouses, OLAP operations, and data quality requirements, emphasizing the significance of data cleaning and integration. Additionally, it discusses methods for data transformation, reduction, and the challenges associated with data quality and missing values.

Uploaded by

Joselito Miguel Castro

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views3 pages

Module1 Reviewer

Uploaded by

Joselito Miguel Castro

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 3

Data Set Types: - Discretization Extraction Transformation

(dividing continuous Loading (ETL)

- Record Data into intervals)
- Graphs and Networks o Binning - Data extraction
- Ordered Sets - Data Cleaning
 Equal-
- Spatial, Image, & - Data transformation
width
Multimedia - Load
 Equal-
- Refresh
Important Characteristics of depth
Structured Data: o Histogram Data Lake: Centralized
o Repository storing all
- Dimensionality structured and unstructured
o Clustering
- Sparsity data. Stores data as is.
- Resolution Analysis,
- Distribution remove outliers Layers of Storage:
o Decision-Tree
Types of Attributes: o Correlation - Sandbox data layer
- Application data layer
- Nominal (red, blue) Data Reduction methods: - Cleansed data layer
- Binary (true or false) - Standardized Data
- Ordinal (junior, senior) - Regression
- Histogram, Clustering, layer
- Numeric - Raw data layer
o Interval no zero sampling
o Ratio zero - Data cube Types of Schemas:
point aggregation
- Data compression - Star Schema
- Discrete vs - Snowflake Schema
Continuous Dimensionality Reduction - Fact Constellation
Central Tendency: - Feature Extraction OLAP Operations:
- Mean (ave) - Feature Selection
- Roll up (drill-up):
- Median (middle point) Data Warehouse: Historical summarize data by
- Mode (most number) data for analysis climbing up the
Skew: OLTP vs OLAP hierarchy
- Drill down: higher
- Mode < Median < OLTP – Online Transactional level to lower level
Mean (positive) Processing, DBMS ops, - Dice: Pick specific
- Mean < Median < query and transactional values or ranges
Mode (negative) processing - Pivot: Rotate a cube –
Data Preprocessing: changing the order
OLAP – Online analytical
- Slice: Removing a
- Data Cleaning processing, Data warehouse
specific dimension
- Data Integration ops, drilling, slicing, dicing,
from a cube
- Data Reduction etc.
- Data Transformation OLAP Architectures
Data warehouse models:
- Data Discretization - Relational OLAP
- Enterprise Warehouse
Data Transformation (uses dbms for data
– collects all info
Processing: management)
- Data mart – selected
- Multidimensional
- Normalization (0-1) information
OLAP (sparse array-
o Min-max - Virtual warehouse –
based)
view on operational
o Z-score - Hybrid OLAP
databases
o By decimal (Flexible)
- Specialized SQL - Arbitrary missing o Selection
Servers (for SQL pattern. Markov chain - Mining
queries over - Pattern/model
star/snowflake) Metadata – data about data
evaluation
XML – Data interchange - Knowledge
Full Cube vs Iceberg Cube
format presentation
Iceberg: Only focuses cells
Data Cleaning: Data Transformation
that satisfy conditions.
Methods:
Data Quality Requirements: How to handle noisy data:
- Smoothing
- Accuracy - Binning - Attribute/feature
- Completeness - Regression construction
- Uniqueness - Clustering - Aggregation
- Timeliness - Combined Human - Normalization
- Consistency and computer - Discretization
inspection
Problems:
Data Integration:
- Unmeasurable - Data quality:
o Accuracy and - Correlation Analysis accuracy,
(measures linear completeness,
completeness
relationship) consistency,
are extremely
- Covariance ( if timeliness,
difficult
positive then A&B are believability,
- Context independent
larger than average, if interpretability
o No accounting
negative if A is larger - Data cleaning: e.g.
for what is than average than B
important missing/noisy values,
is smaller than outliers
- Incomplete average. If 0 both are
o Interpretability, - Data integration from
independent) multiple sources:
accessibility
- Vague Data Reduction: o Entity
o Conventional identification
- Dimensionality problem
defn provide no Reduction o Remove
guidance. o Wavelet redundancies
Data Quality Continuum: transform o Detect
o Principal inconsistencies
- Data Gathering Components
- Data delivery - Data reduction
Analysis o Dimensionality
- Data storage o Feature subset
- Data integration reduction
- Numerosity Reduction o Numerosity
- Data retrieval
o Regression reduction
- Data mining/analysis
o Histogram o Data
Missing Value Imputation: o Data cube compression
- Input mean, median, - Data Compression - Data transformation
other point estimates Knowledge Discovery and data
- Use attribute Process: discretization
relationship, o Normalization
regression, propensity - Data preparation o Concept
score. o Data cleaning hierarchy
- Regression method o Integration generation
o Transformation

Buh
No ratings yet
Buh
2 pages
Data Mining
No ratings yet
Data Mining
4 pages
Datadwm 1
No ratings yet
Datadwm 1
8 pages
Big Data Analytics Overview and Notes
No ratings yet
Big Data Analytics Overview and Notes
9 pages
DWDM
No ratings yet
DWDM
11 pages
DMDW - Preprocessing L-6,7
No ratings yet
DMDW - Preprocessing L-6,7
16 pages
DWDMS 23ad1901
No ratings yet
DWDMS 23ad1901
7 pages
Cat Data Mining
No ratings yet
Cat Data Mining
4 pages
Data Warehouse
No ratings yet
Data Warehouse
10 pages
MST-1 Answers
No ratings yet
MST-1 Answers
4 pages
DWM
No ratings yet
DWM
29 pages
OLAP Insights for Data Analysts
100% (1)
OLAP Insights for Data Analysts
26 pages
Data Warehouse Unit2
No ratings yet
Data Warehouse Unit2
7 pages
Data Mining - Assignment
No ratings yet
Data Mining - Assignment
15 pages
Long
No ratings yet
Long
67 pages
Lecture 2.1.1 2.1.2
No ratings yet
Lecture 2.1.1 2.1.2
19 pages
Chapter 3 Data Warehouse & OLAP
No ratings yet
Chapter 3 Data Warehouse & OLAP
17 pages
Fds 2
No ratings yet
Fds 2
17 pages
Data Warehousing and Mining
No ratings yet
Data Warehousing and Mining
56 pages
DWH Unit 1
No ratings yet
DWH Unit 1
12 pages
DWDM
No ratings yet
DWDM
14 pages
Data Mining for IT Professionals
No ratings yet
Data Mining for IT Professionals
3 pages
Data Warehouse Insights
No ratings yet
Data Warehouse Insights
8 pages
MultiDimensional Data Model
No ratings yet
MultiDimensional Data Model
22 pages
Data Warehousing and OLAP Insights
No ratings yet
Data Warehousing and OLAP Insights
32 pages
Unit 5
No ratings yet
Unit 5
24 pages
Unit Iii
No ratings yet
Unit Iii
10 pages
Data Warehouse and Mining Syllabus
No ratings yet
Data Warehouse and Mining Syllabus
2 pages
Unit 4
No ratings yet
Unit 4
27 pages
Data Mining Important
No ratings yet
Data Mining Important
15 pages
Gujarat Technological University: Subject Name: Elective I - Data Warehousing & Data Mining (DWDM) Subject Code: 640005
No ratings yet
Gujarat Technological University: Subject Name: Elective I - Data Warehousing & Data Mining (DWDM) Subject Code: 640005
5 pages
Online Analytical Processing (OLAP) : Marut - Buranarach@nectec - Or.th
No ratings yet
Online Analytical Processing (OLAP) : Marut - Buranarach@nectec - Or.th
33 pages
BI Notes QA
No ratings yet
BI Notes QA
76 pages
Unit 1
No ratings yet
Unit 1
36 pages
DW&DM Material
No ratings yet
DW&DM Material
107 pages
Unit 5 DWDM
No ratings yet
Unit 5 DWDM
19 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
50 pages
DWM Unit 1
No ratings yet
DWM Unit 1
67 pages
Unit 2
No ratings yet
Unit 2
144 pages
BusinessIntelligence 2023
No ratings yet
BusinessIntelligence 2023
36 pages
OLAP (Online Analytical Processing) : Zalpa Rathod (39) Yatin Puthran (37) Mayuri Pawar (35) Mitesh Patil
No ratings yet
OLAP (Online Analytical Processing) : Zalpa Rathod (39) Yatin Puthran (37) Mayuri Pawar (35) Mitesh Patil
37 pages
Unit-5 DM
No ratings yet
Unit-5 DM
18 pages
IV-cse DM Viva Questions
No ratings yet
IV-cse DM Viva Questions
10 pages
Data Warehousing Unit 1,2
No ratings yet
Data Warehousing Unit 1,2
9 pages
M-1 & M-2 Important
No ratings yet
M-1 & M-2 Important
2 pages
CTEVT Data Mining - Solution 2079
No ratings yet
CTEVT Data Mining - Solution 2079
19 pages
DWDM
No ratings yet
DWDM
19 pages
Data Warehouse & Mining Course Overview
No ratings yet
Data Warehouse & Mining Course Overview
5 pages
Solutions For Data Warehousing 7
No ratings yet
Solutions For Data Warehousing 7
18 pages
Unit 1 Data Warehousing and Data Mining
No ratings yet
Unit 1 Data Warehousing and Data Mining
14 pages
List Data Warehouse Models With Example
No ratings yet
List Data Warehouse Models With Example
19 pages
Datawarehouse and Data Mining Final Notes
No ratings yet
Datawarehouse and Data Mining Final Notes
9 pages
DMBI MKP Test
No ratings yet
DMBI MKP Test
7 pages
Data Mining Overview
No ratings yet
Data Mining Overview
4 pages
DW Concepts
100% (1)
DW Concepts
40 pages
MCA 301 Data Mining Notes
No ratings yet
MCA 301 Data Mining Notes
6 pages
DWM Q Bank
No ratings yet
DWM Q Bank
16 pages
AC2A110350
No ratings yet
AC2A110350
1 page
Thunderbolt Kids Science Comic Books Grade 5
No ratings yet
Thunderbolt Kids Science Comic Books Grade 5
176 pages
Vivo India Marketing Role Application
No ratings yet
Vivo India Marketing Role Application
1 page
Understanding Pilot Plant Scale-Up
No ratings yet
Understanding Pilot Plant Scale-Up
99 pages
Essential AI Tools for Journalists
No ratings yet
Essential AI Tools for Journalists
20 pages
Phys Exp 4
No ratings yet
Phys Exp 4
3 pages
Capstone Sample Project Report
No ratings yet
Capstone Sample Project Report
6 pages
6440 Pah
No ratings yet
6440 Pah
6 pages
Prototype Side-Coupled Tube for e-Linac
No ratings yet
Prototype Side-Coupled Tube for e-Linac
16 pages
Functions of CSO
No ratings yet
Functions of CSO
25 pages
Transition Program for Special Needs in PH
100% (4)
Transition Program for Special Needs in PH
3 pages
Group 4
No ratings yet
Group 4
20 pages
MBA - SEM IV - Strategic Management - Course Syllabus
No ratings yet
MBA - SEM IV - Strategic Management - Course Syllabus
3 pages
Illumination Engineering Design Module
No ratings yet
Illumination Engineering Design Module
3 pages
Sae J44-2015
No ratings yet
Sae J44-2015
3 pages
Geo English
No ratings yet
Geo English
5 pages
Mux Demux Encoder Decoder
No ratings yet
Mux Demux Encoder Decoder
18 pages
Social Media Use in Disaster Management
No ratings yet
Social Media Use in Disaster Management
14 pages
ISO Consulting & Training Services
No ratings yet
ISO Consulting & Training Services
7 pages
7 Keeping Your Code Readable
No ratings yet
7 Keeping Your Code Readable
7 pages
58ce7842-cd32-4d66-9d37-7e33ef382de7 (1)
No ratings yet
58ce7842-cd32-4d66-9d37-7e33ef382de7 (1)
1 page
Big Bag
No ratings yet
Big Bag
4 pages
Beam Design Principles and Analysis
No ratings yet
Beam Design Principles and Analysis
49 pages
GE 9 - Chapter 3 - Natural Law
100% (1)
GE 9 - Chapter 3 - Natural Law
35 pages
Astrology of Profession or Calling - 1. Technique - Seven Stars Astrology
No ratings yet
Astrology of Profession or Calling - 1. Technique - Seven Stars Astrology
9 pages
The Compliment as Social Strategy
No ratings yet
The Compliment as Social Strategy
12 pages
Giving Expanded Definition of Words
No ratings yet
Giving Expanded Definition of Words
18 pages
Apple's Iphone Air and The Marketing
No ratings yet
Apple's Iphone Air and The Marketing
2 pages
50 THE Effect of - Thiamine (Vitamin B1) ON OF Yeast: Fermentation
No ratings yet
50 THE Effect of - Thiamine (Vitamin B1) ON OF Yeast: Fermentation
7 pages
Cosm Previous Year 1
No ratings yet
Cosm Previous Year 1
3 pages

Module1 Reviewer

Uploaded by

Module1 Reviewer

Uploaded by

Data Set Types: - Discretization Extraction Transformation

(dividing continuous Loading (ETL)

You might also like