Lecture6 DataFlowLayer

Uploaded by

2022da04739

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views10 pages

Lecture6 DataFlowLayer

Uploaded by

2022da04739

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

Data Flow Manager

Pravin Y Pawar
Distributed Data Flows

Need
• Distributed state management is required in order to process the data in scalable way

• Distributed data flows consists of

 Data collection
 Data processing

• Systems for data flow management have matured over the years
 In-house developments
 Standard queuing systems like ActiveMQ
 Services like Kafka and Flume
Distributed Data Flows systems

Requirement
• Systems should support
 “At least once” delivery semantic
 Solving “n+1” delivery problem
Data Delivery Semantic

• Three options for data delivery and processing

 At most once delivery
 At least once delivery
 Exactly once delivery
At most once delivery semantic

• Systems used for monitoring purposes

• Important to inform the admins about the problems
• Not all data transmissions required
• Down-sample the data to improve performance
• Data loss is approximately known
Exactly once delivery semantic

• Financial systems or advertising systems

• Every message has to be delivered only once
• Data loss not affordable as it might be revenue loss
• Achieved through queuing systems like ActiveMQ, RabbitMQ
• Usually queue semantics implemented on server side
At least once delivery semantic

• Balance two extremes by providing reliable message delivery by pushing the message handling
semantics to the consumer
• Consumers are free to implement message handling without bothered about other consumers
• Dependent on application logic and handled in application level only
The “n+1” problem

• In data processing pipeline, every time a new service or processing mechanism is added it must
integrate with each of the other systems in place
 Common antipattern
 Handling interaction between systems becomes pain point

• Data flow systems standardizes the communication between the bus layer and each application
, also it manages the physical flow of messages between systems
 Allows any number of consumers and producers to communicate using common protocol
Example Systems

• High performance systems with sufficient scalability to support real time streaming
 Apache Kafka
 Flume by Cloudera

• Kafka
 Directed towards users who are building applications from scratch, giving them the freedom to directly
integrate a data motion system

• Flume
 Design makes it well suited to environments that have existing applications that needs to be federated
into single processing environment
Thank You!
In our next session : Streaming Data Processor

019 - Distributed Data Flows
No ratings yet
019 - Distributed Data Flows
3 pages
Stream Processing
No ratings yet
Stream Processing
33 pages
019.1 - Distributed Data Flows Systems
No ratings yet
019.1 - Distributed Data Flows Systems
3 pages
Analytics On Big Fast Data Using A Realtime Stream Data Processing Architecture
No ratings yet
Analytics On Big Fast Data Using A Realtime Stream Data Processing Architecture
34 pages
7 - Streaming 2 - Calcite
No ratings yet
7 - Streaming 2 - Calcite
45 pages
Assignment No. 3 For Business Data Analytics
No ratings yet
Assignment No. 3 For Business Data Analytics
16 pages
Data Stream Processing Platforms Explained
No ratings yet
Data Stream Processing Platforms Explained
27 pages
Kafka
No ratings yet
Kafka
21 pages
BDA Unit 3
No ratings yet
BDA Unit 3
42 pages
Data Flow Computing Overview
No ratings yet
Data Flow Computing Overview
13 pages
Big Data
No ratings yet
Big Data
4 pages
StreamProcessingAndAnalytics Handout
No ratings yet
StreamProcessingAndAnalytics Handout
7 pages
5 Must-Know Distributed Systems Design Patterns For Event-Driven Architectures - by Arslan Ahmad - Level Up Coding
No ratings yet
5 Must-Know Distributed Systems Design Patterns For Event-Driven Architectures - by Arslan Ahmad - Level Up Coding
16 pages
Streaming Data
No ratings yet
Streaming Data
33 pages
Stream Processing and Analytics Handout
No ratings yet
Stream Processing and Analytics Handout
8 pages
Big Data Analytics - Unit 2 Notes
No ratings yet
Big Data Analytics - Unit 2 Notes
44 pages
Unit 3-6
No ratings yet
Unit 3-6
14 pages
Streaming Graph Processing Unit5
No ratings yet
Streaming Graph Processing Unit5
7 pages
Big Data 3rd Assignment Answers
No ratings yet
Big Data 3rd Assignment Answers
8 pages
FLUME
No ratings yet
FLUME
31 pages
Dataflow Machines and Architectures
No ratings yet
Dataflow Machines and Architectures
42 pages
Analyzing Log Data with Apache Flume
No ratings yet
Analyzing Log Data with Apache Flume
2 pages
Real Time Data Sentiment Analysis Report
No ratings yet
Real Time Data Sentiment Analysis Report
23 pages
Data Analytics Unit 3
No ratings yet
Data Analytics Unit 3
14 pages
Event Driven Programing 2
100% (1)
Event Driven Programing 2
22 pages
Big Data PDF
No ratings yet
Big Data PDF
10 pages
DataStreaming L-4
No ratings yet
DataStreaming L-4
16 pages
Real-Time Streaming in Big Data: Kafka and Spark With Singlestore
100% (1)
Real-Time Streaming in Big Data: Kafka and Spark With Singlestore
23 pages
12lecture - Technology and Tools (Ù SqoobFlume)
No ratings yet
12lecture - Technology and Tools (Ù SqoobFlume)
48 pages
BDA Unit 3
No ratings yet
BDA Unit 3
18 pages
Lec 19
No ratings yet
Lec 19
24 pages
Real-Time Streaming for Tech Pros
No ratings yet
Real-Time Streaming for Tech Pros
5 pages
Unit - Ii System Models
No ratings yet
Unit - Ii System Models
29 pages
Stream Processing in Big Data Analytics
No ratings yet
Stream Processing in Big Data Analytics
33 pages
SA Unit 1 PPT 2
No ratings yet
SA Unit 1 PPT 2
27 pages
BDA Lec10
No ratings yet
BDA Lec10
33 pages
5a. Introduction To Data Ingestion and Processing
No ratings yet
5a. Introduction To Data Ingestion and Processing
26 pages
Apache Kafka for Tech Students
No ratings yet
Apache Kafka for Tech Students
21 pages
011 - Streaming Data System Architecture Components
No ratings yet
011 - Streaming Data System Architecture Components
2 pages
Real-Time Data Stream Applications
No ratings yet
Real-Time Data Stream Applications
18 pages
SPA EC2 Cluster MakeUpSolutions
No ratings yet
SPA EC2 Cluster MakeUpSolutions
4 pages
Midsem Regular QP
No ratings yet
Midsem Regular QP
2 pages
Unit - II System Models
No ratings yet
Unit - II System Models
29 pages
Big Data Concepts - Spark & Streaming
No ratings yet
Big Data Concepts - Spark & Streaming
35 pages
Kafka
No ratings yet
Kafka
28 pages
Mining Data Streams in Data Analytics Refers To The Process of Extracting Useful Patterns
No ratings yet
Mining Data Streams in Data Analytics Refers To The Process of Extracting Useful Patterns
30 pages
Embedded System Modeling Techniques
No ratings yet
Embedded System Modeling Techniques
35 pages
BDA Unit-4
No ratings yet
BDA Unit-4
12 pages
Event-Driven Architecture - Leveraging Kafka For Real-Time Data Processing
No ratings yet
Event-Driven Architecture - Leveraging Kafka For Real-Time Data Processing
4 pages
Unit 3
No ratings yet
Unit 3
55 pages
4 Building Blocks of A Streaming Data Architecture
No ratings yet
4 Building Blocks of A Streaming Data Architecture
11 pages
EC2 SampleQP
No ratings yet
EC2 SampleQP
1 page
Lec 19
No ratings yet
Lec 19
23 pages
What Are Creatures - Google Search
No ratings yet
What Are Creatures - Google Search
1 page
ACI Best Practice Configurations
No ratings yet
ACI Best Practice Configurations
15 pages
Freezing Point Calculations for Ice Cream
No ratings yet
Freezing Point Calculations for Ice Cream
9 pages
Capital Budgeting and Leasing
No ratings yet
Capital Budgeting and Leasing
22 pages
Capacitor 2 Worksheet Fisica IV2025 2
No ratings yet
Capacitor 2 Worksheet Fisica IV2025 2
11 pages
The Victorian Workhouses
100% (1)
The Victorian Workhouses
3 pages
Understanding Mood Disorders
100% (2)
Understanding Mood Disorders
25 pages
g7 Recognition Day Programme Final
No ratings yet
g7 Recognition Day Programme Final
5 pages
Concentrating Solar Power Explained
100% (1)
Concentrating Solar Power Explained
8 pages
Graduate LLB Program Overview
No ratings yet
Graduate LLB Program Overview
3 pages
SEL Core Values and Commitment
No ratings yet
SEL Core Values and Commitment
4 pages
Vultures
No ratings yet
Vultures
1 page
2D-3D Game Design
No ratings yet
2D-3D Game Design
7 pages
RA Removing and Installing - Replacing Front Left or Right Entrance Cover Strip
No ratings yet
RA Removing and Installing - Replacing Front Left or Right Entrance Cover Strip
2 pages
Keeping Banks Competitive: A Foundation For Robust Performance Management
No ratings yet
Keeping Banks Competitive: A Foundation For Robust Performance Management
4 pages
MBA Internship Opportunities at Sathyabama
No ratings yet
MBA Internship Opportunities at Sathyabama
3 pages
01 Human Rights in Islam
No ratings yet
01 Human Rights in Islam
21 pages
Dying Declaration - Section-32 (1) of Indian Evidence Act: Abstract
No ratings yet
Dying Declaration - Section-32 (1) of Indian Evidence Act: Abstract
8 pages
Legal Nuances of Marriage Termination
No ratings yet
Legal Nuances of Marriage Termination
3 pages
Medieval Spain's Heroic Defenders
No ratings yet
Medieval Spain's Heroic Defenders
2 pages
Understanding Physical Changes
No ratings yet
Understanding Physical Changes
1 page
English Exam for Đắk R'lấp Students
No ratings yet
English Exam for Đắk R'lấp Students
15 pages
Contents at A Glance Mill 2D&3D-website PDF
No ratings yet
Contents at A Glance Mill 2D&3D-website PDF
14 pages
Rethinking Postmodernism - Clayton
No ratings yet
Rethinking Postmodernism - Clayton
19 pages
Technical Specifications
No ratings yet
Technical Specifications
8 pages
Artifact Sampling of Different Types of Assessment
No ratings yet
Artifact Sampling of Different Types of Assessment
17 pages
Biological Classification Overview
No ratings yet
Biological Classification Overview
12 pages
AllPort Theory of Trait Personality
50% (2)
AllPort Theory of Trait Personality
4 pages
Personality Development
No ratings yet
Personality Development
9 pages
See-Judge-Act Methodology and Theological Framewor
No ratings yet
See-Judge-Act Methodology and Theological Framewor
7 pages

Lecture6 DataFlowLayer

Uploaded by

Lecture6 DataFlowLayer

Uploaded by

Data Flow Manager

• Distributed data flows consists of

• Three options for data delivery and processing

• Systems used for monitoring purposes

• Financial systems or advertising systems

You might also like