0% found this document useful (1 vote)

2K views

Data Mining-Mining Time Series Data

This document discusses time-series data and methods for analyzing it. Time-series data consists of sequential values measured over time that can be analyzed to identify patterns, trends, and outliers. Key aspects of time-series analysis include decomposing data into trend, seasonal, cyclic, and irregular components; de-seasonalizing data to remove systematic influences; autocorrelation to detect correlations between values; and modeling and forecasting time-series data. Similarity search techniques are used to find similar sequences that differ slightly, and dimensionality reduction transforms high-dimensional time-series data for more efficient analysis and indexing.

Uploaded by

Raj Endran

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (1 vote)

2K views

Data Mining-Mining Time Series Data

Uploaded by

Raj Endran

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

MINING TIME-SERIES DATA

Time-Series Database
Consists of sequences of values or events obtained
over repeated measurements of time (weekly,
hourly)
Stock market analysis, economic and sales
forecasting,
scientific
and
engineering
experiments, medical treatments etc.
Can also be considered as a Sequence database
Consists of a sequence of ordered events (time
optional)
Web page Traversal Sequence
Time-Series data can be analyzed to:
Identify correlations
Similar / Regular patterns, trends, outliers
Trend Analysis
Time Series involving a variable Y can be
represented as a function of time t, Y = F(t)
Goals of Time-Series Analysis
Modeling time series - To gain insight into the
mechanism
Forecasting time series - For prediction
Trend Analysis Components

Long-term or trend movements (trend curve):

general direction in which a time series is moving
over a long interval of time
Cyclic movements or cycle variations: long term
oscillations about a trend line or curve
e.g., business cycles, may or may not be
periodic

Seasonal movements or seasonal variations

i.e, almost identical patterns that a time series
appears to follow during corresponding
months of successive years.
Irregular or random movements
Time series analysis: decomposition of a time series
into these four basic movements
Additive Model: TS = T + C + S + I
Multiplicative Model: TS = T C

Adjusting Seasonal fluctuations

Given a series of measurements y 1, y,2, y3
influences of the data that are systematic /
calendar related must be removed

Fluctuations
conceal
true
underlying
movement of the series and non-seasonal
characteristics
De-seasonalize the data

Seasonal Index set of numbers showing the

relative values of a variable during the months of
a year

Sales during Oct, Nov, Dec 80%, 120% and

140% of average monthly sales Seasonal
index 80, 120, 140

Dividing original monthly data by seasonal

index De-seasonalizes data
Auto-Correlation Analysis
To detect correlations between ith element and (ik)th element k- lag
Pearsons coefficient can be used between <y1,
y2,yN-k> and <yk+1, yk+2, ..yN>

Estimating Trend Curves

The freehand method

Fit the curve by looking at the graph
Costly and barely reliable for large-scaled
data mining
The least-square method

Find the curve minimizing the sum of the

squares of the deviation di of points yi on the
curve from the corresponding data points i=1 n di2
The moving-average method
Moving Average Method

Smoothes the data

Eliminates cyclic, seasonal and irregular
movements
Loses the data at the beginning or end of a series
Sensitive to outliers (can be reduced by Weighted
Moving Average)

Assigns greater weight to center elements to

eliminate smoothing effects

Ex: 3 7 2 0 4 5 9 7 2
Moving average of order 3: 4 3 2 3 6 7 6
Weighted average (1 4 1): 5.5 2.5 1 3.5 5.5
8 6.5

Once trends are detected data can be divided by

corresponding trend values

Cyclic Variations can be handled using Cyclic
Indexes
Time-Series Forecasting
Long term / Short term predictions

ARIMA Auto-Regressive Integrated Moving

Average

Similarity Search
Normal database query finds exact match
Similarity search finds data sequences that differ
only slightly from the given query sequence
Two categories of similarity queries
Whole matching: find a sequence that is similar to
the query sequence
Subsequence matching: find all pairs of similar
sequences
Typical Applications
Financial market
Market basket data analysis
Scientific databases
Medical diagnosis
Data Reduction and Transformation
Time Series data high-dimensional data each
point of time can be viewed as a dimension
Dimensionality Reduction techniques
Signal Processing techniques

Discrete Fourier Transform

Discrete Wavelet Transform

Singular Value Decomposition based on PCA

Random projection-based Sketches
Time Series data is transformed and strongest
coefficients features
Techniques may require values in Frequency
domain

Distance
preserving
Ortho-normal
transformations

The distance between two signals in the time

domain is the same as their Euclidean
distance in the frequency domain

Indexing methods for Similarity Search

Multi-dimensional index
Use the index to retrieve the sequences that are at
most a certain small distance away from the query
sequence
Perform post-processing by computing the actual
distance between sequences in the time domain
and discard any false matches
Sequence is mapped to trails, trail is divided into
sub-trails
Indexing techniques
R-trees, R*-trees, Suffix trees etc
Subsequence Matching
Break each sequence into a set of pieces of window
with length w
Extract the features of the subsequence inside the
window
Map each sequence to a trail in the feature space
Divide the trail of each sequence into subtrails and
represent each of them with minimum bounding
rectangle
Use a multi-piece assembly algorithm to search for
longer sequence matches
Uses Euclidean distance (Sensitive to outliers)
Similarity Search Methods
Practically there maybe differences in the baseline
and scale

Distance from one baseline to another offset

Data has to be normalized
Sequence X = <x1, x2, ..xn> can be replaced by
X = <x1, x2, xn> where xi = xi - /
Two subsequences are considered similar if one
lies within an envelope of width around the
other, ignoring outliers
Two sequences are said to be similar if they have
enough non-overlapping time-ordered pairs of
similar subsequences
Parameters specified by a user or expert: sliding
window size, width of an envelope for similarity,
maximum gap, and matching fraction

Atomic matching
Find all pairs of gap-free windows of a small
length that are similar
Window stitching
Stitch similar windows to form pairs of large
similar subsequences allowing gaps between
atomic matches
Subsequence Ordering
Linearly order the subsequence matches to
determine whether enough similar pieces exist

Query Languages for Time Sequence

Time-sequence query language
Should be able to specify sophisticated queries
like

Find all of the sequences that are similar to

some sequence in class A, but not similar to
any sequence in class B
Should be able to support various kinds of

queries: range queries, all-pair queries, and

nearest neighbor queries
Shape definition language
Allows users to define and query the overall
shape of time sequences
Uses
human readable series of sequence
transitions or macros
Ignores the specific details

E.g., the pattern up, Up, UP can be used to

describe increasing degrees of rising slopes

Macros: spike, valley, etc.

1-Mapping Problems To Machine Learning Tasks
No ratings yet
1-Mapping Problems To Machine Learning Tasks
19 pages
Humphries Language Anxiety
No ratings yet
Humphries Language Anxiety
13 pages
Library Visit Assignment
100% (1)
Library Visit Assignment
8 pages
Mining Various Kinds of Association Rules
No ratings yet
Mining Various Kinds of Association Rules
11 pages
Analytical Learning
No ratings yet
Analytical Learning
42 pages
Distribution Model
100% (1)
Distribution Model
24 pages
Unit 5
No ratings yet
Unit 5
8 pages
Se r18 Lab Manual
100% (2)
Se r18 Lab Manual
145 pages
Final Document
No ratings yet
Final Document
73 pages
Challenges InThreading A Loop - Doc1
100% (2)
Challenges InThreading A Loop - Doc1
6 pages
Relationships Between Pixels
No ratings yet
Relationships Between Pixels
26 pages
21cs644 Module 3
No ratings yet
21cs644 Module 3
95 pages
UNIT 4 Mining Object Spatial Multimedia Text and Web Data
No ratings yet
UNIT 4 Mining Object Spatial Multimedia Text and Web Data
30 pages
Module - 1 Notes - SEPM (21CS61)
No ratings yet
Module - 1 Notes - SEPM (21CS61)
29 pages
CNS Notes
No ratings yet
CNS Notes
244 pages
SPPM UNIT 5
No ratings yet
SPPM UNIT 5
11 pages
1) Explain in Detail Core Function of Edge Analytics With Diagram
No ratings yet
1) Explain in Detail Core Function of Edge Analytics With Diagram
13 pages
Data Analytics - Unit-V
No ratings yet
Data Analytics - Unit-V
9 pages
Counting Ones in A Window: The Cost of Exact Counts
100% (1)
Counting Ones in A Window: The Cost of Exact Counts
13 pages
Data Mining and Visualization Question Bank
100% (1)
Data Mining and Visualization Question Bank
11 pages
Decision Tree Induction Algorithm
No ratings yet
Decision Tree Induction Algorithm
2 pages
Written By: Prof A. M .Padmareddy Chapter 1: Introduction To Finite Automata
No ratings yet
Written By: Prof A. M .Padmareddy Chapter 1: Introduction To Finite Automata
13 pages
Applications and Trends in Data Mining
100% (1)
Applications and Trends in Data Mining
20 pages
M. Tech. (Sem-Ii) Theory Examination 2017-18 Distributed Data Base
100% (1)
M. Tech. (Sem-Ii) Theory Examination 2017-18 Distributed Data Base
2 pages
Optimization of DFA Based Pattern Matchers
50% (2)
Optimization of DFA Based Pattern Matchers
17 pages
Multimedia Mining Presentation
No ratings yet
Multimedia Mining Presentation
18 pages
Informal Design Guidelines For Relation Schemas
No ratings yet
Informal Design Guidelines For Relation Schemas
19 pages
PAT Trees and PAT Arrays
No ratings yet
PAT Trees and PAT Arrays
12 pages
Chap6-Relational Algebra
No ratings yet
Chap6-Relational Algebra
49 pages
IV-cse DM Viva Questions
No ratings yet
IV-cse DM Viva Questions
10 pages
UNIT - II SPPM Notes
No ratings yet
UNIT - II SPPM Notes
22 pages
r18 - Big Data Analytics - Cse (DS)
0% (1)
r18 - Big Data Analytics - Cse (DS)
1 page
Data Structure Unit 5
50% (4)
Data Structure Unit 5
14 pages
Data Analytics III I
No ratings yet
Data Analytics III I
86 pages
Fake Job Post Detection Using Machine Learning
100% (1)
Fake Job Post Detection Using Machine Learning
24 pages
Irt 2 Marks With Answer
No ratings yet
Irt 2 Marks With Answer
15 pages
Data Mining-Graph Mining
No ratings yet
Data Mining-Graph Mining
9 pages
Evolution of Analytical Scalability
100% (1)
Evolution of Analytical Scalability
11 pages
Issues in Knowledge Representation: Inverses
No ratings yet
Issues in Knowledge Representation: Inverses
4 pages
Big Data Shivani
No ratings yet
Big Data Shivani
78 pages
Chapter 4: Semantic Data Control: View Management Security Control Integrity Control
100% (1)
Chapter 4: Semantic Data Control: View Management Security Control Integrity Control
25 pages
Enhanced Data Models For Advanced Applications
91% (11)
Enhanced Data Models For Advanced Applications
15 pages
Subject:Machine Learning Unit-5 Analytical Learning Topic:Remarks On Explanation Based Learning
100% (1)
Subject:Machine Learning Unit-5 Analytical Learning Topic:Remarks On Explanation Based Learning
21 pages
Chapter 6: Query Decomposition and Data Localization
0% (1)
Chapter 6: Query Decomposition and Data Localization
26 pages
DBMS Module-3-Notes - SQL
100% (1)
DBMS Module-3-Notes - SQL
26 pages
Data Analytics Unit-I
No ratings yet
Data Analytics Unit-I
25 pages
Introduction To Stream Data Model
50% (2)
Introduction To Stream Data Model
15 pages
Assignment No 2
No ratings yet
Assignment No 2
26 pages
DBMS-Unit 5
No ratings yet
DBMS-Unit 5
27 pages
Unit-1 ML
No ratings yet
Unit-1 ML
19 pages
Aggregate Data Models
100% (1)
Aggregate Data Models
55 pages
Reducibility: Design and Analysis of Algorithms (18CSE107)
No ratings yet
Reducibility: Design and Analysis of Algorithms (18CSE107)
20 pages
Characteristics of Soft Computing
88% (8)
Characteristics of Soft Computing
11 pages
Algebraic Laws For Regular Epxressions
0% (3)
Algebraic Laws For Regular Epxressions
14 pages
Computer Vision Module 5
100% (1)
Computer Vision Module 5
22 pages
DBMS Module 2
No ratings yet
DBMS Module 2
12 pages
OOAD Notes PDF
100% (2)
OOAD Notes PDF
92 pages
P 1
67% (6)
P 1
7 pages
Data Mining
No ratings yet
Data Mining
22 pages
Time Series
No ratings yet
Time Series
29 pages
Pattern Matching With Acceleration Data: Pramod Vemulapalli
No ratings yet
Pattern Matching With Acceleration Data: Pramod Vemulapalli
29 pages
Temporal Data Mining: Time Series Analysis and Time-Lag Detection
No ratings yet
Temporal Data Mining: Time Series Analysis and Time-Lag Detection
11 pages
Data Mining-Outlier Analysis
No ratings yet
Data Mining-Outlier Analysis
6 pages
Data Mining-Mining Sequence Patterns in Biological Data
No ratings yet
Data Mining-Mining Sequence Patterns in Biological Data
6 pages
Data Mining - Mining Sequential Patterns
No ratings yet
Data Mining - Mining Sequential Patterns
10 pages
5.1 Mining Data Streams
No ratings yet
5.1 Mining Data Streams
16 pages
Data Mining-Multimedia Datamining
No ratings yet
Data Mining-Multimedia Datamining
8 pages
Data Mining-Spatial Data Mining
No ratings yet
Data Mining-Spatial Data Mining
8 pages
Data Mining-Constraint Based Cluster Analysis
100% (1)
Data Mining-Constraint Based Cluster Analysis
4 pages
Data Mining-Model Based Clustering
No ratings yet
Data Mining-Model Based Clustering
8 pages
Data Mining-Partitioning Methods
100% (1)
Data Mining-Partitioning Methods
7 pages
Data Mining-Backpropagation
100% (1)
Data Mining-Backpropagation
5 pages
Data Mining - Other Classifiers
No ratings yet
Data Mining - Other Classifiers
7 pages
Data Mining-Rule Based Classification
No ratings yet
Data Mining-Rule Based Classification
4 pages
Data Mining - Density Based Clustering
No ratings yet
Data Mining - Density Based Clustering
8 pages
Data Mining - Bayesian Classification
No ratings yet
Data Mining - Bayesian Classification
6 pages
Data Mining - Data Reduction
No ratings yet
Data Mining - Data Reduction
6 pages
Data Mining - Discretization
100% (1)
Data Mining - Discretization
5 pages
Data Mining-Data Warehouse
No ratings yet
Data Mining-Data Warehouse
7 pages
08 Data Mining-Other Classifications
No ratings yet
08 Data Mining-Other Classifications
4 pages
Data Mining - Outlier Analysis
100% (3)
Data Mining - Outlier Analysis
11 pages
Data Mining-Applications, Issues
No ratings yet
Data Mining-Applications, Issues
9 pages
02 Data Mining-Partitioning Method
No ratings yet
02 Data Mining-Partitioning Method
8 pages
GD32F103xx Data Sheet
No ratings yet
GD32F103xx Data Sheet
48 pages
ФО Англ.яз 3кл
No ratings yet
ФО Англ.яз 3кл
135 pages
Jee Result
No ratings yet
Jee Result
1 page
Scorereport
No ratings yet
Scorereport
3 pages
Tabular Rep of Plato Dividing Line
No ratings yet
Tabular Rep of Plato Dividing Line
3 pages
Dàn Bài Writing Task 2
No ratings yet
Dàn Bài Writing Task 2
17 pages
Solution Manual Adms 2320 PDF
No ratings yet
Solution Manual Adms 2320 PDF
869 pages
Jackson Mbugua-81567e59
No ratings yet
Jackson Mbugua-81567e59
2 pages
5 Cse PDF
No ratings yet
5 Cse PDF
184 pages
How To Solve A Case Study
No ratings yet
How To Solve A Case Study
8 pages
Borehole NOC Report - Approved
No ratings yet
Borehole NOC Report - Approved
27 pages
Oral Presentations: Signalling and Transition Words: Language For The Introduction of An Oral Presentation
No ratings yet
Oral Presentations: Signalling and Transition Words: Language For The Introduction of An Oral Presentation
3 pages
27 Card Trick and Base 3
No ratings yet
27 Card Trick and Base 3
18 pages
Ahmed 2012/13
No ratings yet
Ahmed 2012/13
97 pages
Unit 3 Physics Motion v5
No ratings yet
Unit 3 Physics Motion v5
43 pages
Final Syllabus
No ratings yet
Final Syllabus
10 pages
2015 CPL Navigation Workbook v2
No ratings yet
2015 CPL Navigation Workbook v2
16 pages
Computer 1st Grading Period
No ratings yet
Computer 1st Grading Period
6 pages
Champak June (First) 2012 PDF
No ratings yet
Champak June (First) 2012 PDF
60 pages
Disudoku
No ratings yet
Disudoku
4 pages
Experimental Archaeology in NCU The News
No ratings yet
Experimental Archaeology in NCU The News
17 pages
A Brief Presentation On Shell Sort
No ratings yet
A Brief Presentation On Shell Sort
4 pages
Resume Sandeep
No ratings yet
Resume Sandeep
1 page
Bajaj Automobiles Sales Marketing
No ratings yet
Bajaj Automobiles Sales Marketing
43 pages
Geostudio
No ratings yet
Geostudio
12 pages
Chapter 6: Wave: 6.1 Understanding Waves
No ratings yet
Chapter 6: Wave: 6.1 Understanding Waves
35 pages
Student Protfolio in Work Immersion
No ratings yet
Student Protfolio in Work Immersion
5 pages
Michel Chion Film A Sound Art Translated
No ratings yet
Michel Chion Film A Sound Art Translated
4 pages