0% found this document useful (0 votes)

15 views47 pages

Bigdata Lecture

Uploaded by

Suraj Sharma

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views47 pages

Bigdata Lecture

Uploaded by

Suraj Sharma

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 47

Big Data ecosystem

M. Fanilo Andrianasolo
Data Analytics Tech Lead & Product Manager

2013 - 2016 2016 - 2017 2017-2019 2019-current

Big Data Data Analytics Data Science Data Analytics
Engineer Evangelist Tech Lead Product Manager
Data is at the center of all IT activities

Data Hardware Innovations

Explosion of data
3Vs of Big Data

Volume

Big Data Variability

Value
Velocity
Vulnerability
Vwhatever..

Variety
Problem

Daily rate in 2014

21,000 $ 600 TB 75 days

Cost of 1 TB Time to read 1 TB
~35$ ~3 hours

How should we store and query such data ?

Scaling ?

Vertical scaling Horizontal scaling

Less power PRICE Much cheaper Bigger energy footprint

consumption, cooling
costs Hardware failure causes Easier fault-tolerance Higher utility cost
bigger outages (electricity, cooling)
Less challenging to “Easier” upgrade by
implement Vendor lock-in adding new machines More networking
equipment
Less licencing costs Limited upgradeability

(Sometimes) less
network hardware
Scaling is hard
Big Data ecosystem
Apache Hadoop

Open-source software for reliable, scalable, distributed computing

Apache Hadoop ecosystem

More than 30 open source projects for managing and analyzing Big Data

…
Hadoop distributions
Hadoop distributions vs Cloud providers
Hadoop ecosystem use cases

Web indexing from web crawlers

Playlist generation from every listens

Log analysis

Product recommendation from purchases

A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Acquisition
Acquisition

Import

Hadoop
RDBMS
FS
Export
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Transport
Transport

{
"type" : "record",
"namespace" : "test",
"name" : "Employee", emp e1=new emp( );
"fields" : [ [Link]("omar");
{ "name" : "Name" , "type" : "string" }, [Link](21);
{ "name" : "Age" , "type" : "int" }
]
}

.ascv .java
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Hadoop Distributed File System

NameNode

DataNode1 DataNode2 DataNode3

block 1 block 2 block 1

block 2 block 1 block 1

block 1 block 1 block 2

HBase

Key U:cookie U:is_auth U:has_t P:Product1 P:Product2 P:Product3

1960:Fanilo c13e 1 3

2001:Fanilo c13e 1

1990:Omar d45 1
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
YARN – Yet Another Resource Negotiator

YARN hides the resource management details from the user to

facilitate the management of parallel applications.
Batch processing - Map Reduce

Data locality : Moving Computation is Cheaper than Moving Data

Batch processing

music_sales.csv

1, « Let it go », 4.99€, 5
2, « Snow », 7.99€, 1
HiveQL MapReduce
3, « Lion King », 0.99€, 1
4, « SISE », 1.99€, 2
5, « Lyon is great », 2.99€, 3
Metastore
Batch processing

music_sales.csv

recordings = LOAD '$file' USING PigStorage(',') AS 1, « Let it go », 4.99€, 5

(id, price, artist, title,
duration, year);
limit = LIMIT recordings $size;
2, « Snow », 7.99€, 1
DUMP limit;
3, « Lion King », 0.99€, 1
4, « SISE », 1.99€, 2
MapReduce 5, « Lyon is great », 2.99€, 3
Batch processing
Realtime processing
Realtime processing
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Visualizing
Visualizing
A data platform canvas

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Security

Kerberos
Orchestration
Orchestration
Overview

Acquisition Transport Storage Processing Servicing

Security
Orchestration
Architecture design
Multiple architectures
Lambda architecture
Kappa architecture
CONCLUSION
THANKS

@andfanilo

andfanilo@[Link]

Big Data & Hadoop Training Material 0 1 PDF
50% (2)
Big Data & Hadoop Training Material 0 1 PDF
168 pages
Data W - Bigdata8
No ratings yet
Data W - Bigdata8
105 pages
Big Data Insights with Hadoop
No ratings yet
Big Data Insights with Hadoop
34 pages
DSCI 5350 - Lecture 2 PDF
No ratings yet
DSCI 5350 - Lecture 2 PDF
54 pages
Hadoop
No ratings yet
Hadoop
61 pages
Overview of Hadoop Modules
100% (1)
Overview of Hadoop Modules
40 pages
Hadoop & HDP for IoT Data Analysis
No ratings yet
Hadoop & HDP for IoT Data Analysis
107 pages
LinkedIn's Use of Apache Samza
No ratings yet
LinkedIn's Use of Apache Samza
20 pages
Hadoop
No ratings yet
Hadoop
21 pages
Big Data Open Source Implementation & Administration
No ratings yet
Big Data Open Source Implementation & Administration
16 pages
BDA Unit 3
No ratings yet
BDA Unit 3
7 pages
DBMS Unit-5
No ratings yet
DBMS Unit-5
92 pages
Case Study On Hadoop
100% (1)
Case Study On Hadoop
6 pages
Unit-Iv - Bda
No ratings yet
Unit-Iv - Bda
150 pages
Hadoop Ecosystem Overview
No ratings yet
Hadoop Ecosystem Overview
229 pages
Big Data Analysis PDF 2
No ratings yet
Big Data Analysis PDF 2
18 pages
Part2 HDFS
No ratings yet
Part2 HDFS
33 pages
Big Data
No ratings yet
Big Data
27 pages
Introduction to Hadoop and Cloudera
100% (1)
Introduction to Hadoop and Cloudera
91 pages
Deutsche Telekom Perspective On HADOOP and Big Data Technologies
No ratings yet
Deutsche Telekom Perspective On HADOOP and Big Data Technologies
19 pages
Big Data - Introduction To Hadoop
No ratings yet
Big Data - Introduction To Hadoop
61 pages
Hadoop - An Introduction
No ratings yet
Hadoop - An Introduction
20 pages
BIG Data - Unit - 2
No ratings yet
BIG Data - Unit - 2
24 pages
Hadoop Quick Guide
No ratings yet
Hadoop Quick Guide
32 pages
Hadoop: What Is Data Engineering? Hadoop Overview Hadoop Ecosystem
No ratings yet
Hadoop: What Is Data Engineering? Hadoop Overview Hadoop Ecosystem
9 pages
Hadoop - Quick Guide Hadoop - Big Data Overview
No ratings yet
Hadoop - Quick Guide Hadoop - Big Data Overview
32 pages
Data Engineering Essentials
No ratings yet
Data Engineering Essentials
61 pages
Big Data and Hadoop Overview Guide
No ratings yet
Big Data and Hadoop Overview Guide
65 pages
Big Data Battle: Hadoop vs Spark
No ratings yet
Big Data Battle: Hadoop vs Spark
6 pages
Hadoop Chapter 1
No ratings yet
Hadoop Chapter 1
6 pages
Big Data & Unsupervised Learning Guide
No ratings yet
Big Data & Unsupervised Learning Guide
6 pages
Subject: Data Driven Decision Making: Apache Hadoop For Big Data
No ratings yet
Subject: Data Driven Decision Making: Apache Hadoop For Big Data
5 pages
02 Haddop Biginsights
No ratings yet
02 Haddop Biginsights
36 pages
Big Data & Hadoop Essentials
No ratings yet
Big Data & Hadoop Essentials
63 pages
Hadoop Introduction
No ratings yet
Hadoop Introduction
29 pages
INtroduction To Big DAta and HAdoop
No ratings yet
INtroduction To Big DAta and HAdoop
30 pages
Hadoop-How It Works
No ratings yet
Hadoop-How It Works
5 pages
Big Data and Its Impact On Data Warehousing
No ratings yet
Big Data and Its Impact On Data Warehousing
18 pages
Overview of the Hadoop Ecosystem
No ratings yet
Overview of the Hadoop Ecosystem
5 pages
Hadoop by Dr. Kamal Gulati
No ratings yet
Hadoop by Dr. Kamal Gulati
33 pages
Big Data Overview & Hadoop For DBA's: Satyendra Pasalapudi
No ratings yet
Big Data Overview & Hadoop For DBA's: Satyendra Pasalapudi
92 pages
Big Data Analytics
No ratings yet
Big Data Analytics
8 pages
Data Science
No ratings yet
Data Science
87 pages
BDH Admin Ebook
No ratings yet
BDH Admin Ebook
807 pages
Hadoop - Presentation 101
No ratings yet
Hadoop - Presentation 101
10 pages
01 - Intro To Big Data
No ratings yet
01 - Intro To Big Data
26 pages
Hadoop for Big Data Professionals
No ratings yet
Hadoop for Big Data Professionals
24 pages
Analyzing Big Data in Hadoop Spark
No ratings yet
Analyzing Big Data in Hadoop Spark
30 pages
Big Data
No ratings yet
Big Data
11 pages
Big Data Insights for Tech Professionals
No ratings yet
Big Data Insights for Tech Professionals
16 pages
Hadoop Ecosystem Overview and Setup
No ratings yet
Hadoop Ecosystem Overview and Setup
48 pages
HDFS Node Types and User Interfaces
No ratings yet
HDFS Node Types and User Interfaces
15 pages
1 - HADOOP Crash Course
No ratings yet
1 - HADOOP Crash Course
52 pages
BDA Unit2 Notes
No ratings yet
BDA Unit2 Notes
23 pages
Welcome To The New Era of Cloud Computing: The Web Is Replacing The Desktop
No ratings yet
Welcome To The New Era of Cloud Computing: The Web Is Replacing The Desktop
36 pages
Digipass 250: Compact Size. Strong Authentication
No ratings yet
Digipass 250: Compact Size. Strong Authentication
2 pages
Strategic Management Assignment
No ratings yet
Strategic Management Assignment
37 pages
Network Security Management & Analytics
No ratings yet
Network Security Management & Analytics
15 pages
Google Cloud Native App Security Threats
No ratings yet
Google Cloud Native App Security Threats
22 pages
MAPEH Arts Daily Lesson Log for Grade VI
No ratings yet
MAPEH Arts Daily Lesson Log for Grade VI
5 pages
Dr. Darshan Mahajan (Cloud Computing) PDF
No ratings yet
Dr. Darshan Mahajan (Cloud Computing) PDF
4 pages
Salesforce CPQ Interview Scenarios
No ratings yet
Salesforce CPQ Interview Scenarios
6 pages
Quick Tools & Notifications Menu
No ratings yet
Quick Tools & Notifications Menu
3 pages
By GiftCard PB
No ratings yet
By GiftCard PB
25 pages
Building Domain-Specific Custom LLM Models Harnessing The Power of Open Source Foundation Models
No ratings yet
Building Domain-Specific Custom LLM Models Harnessing The Power of Open Source Foundation Models
11 pages
Work Breakdown Structure Explained
No ratings yet
Work Breakdown Structure Explained
10 pages
Welcome To The Course!
No ratings yet
Welcome To The Course!
7 pages
Resume ABAP 3years
No ratings yet
Resume ABAP 3years
4 pages
World Web Technology Brochure
No ratings yet
World Web Technology Brochure
14 pages
Security Guide
No ratings yet
Security Guide
60 pages
Software Quality Assurance
No ratings yet
Software Quality Assurance
3 pages
Teamwork 1
No ratings yet
Teamwork 1
7 pages
ISB-CTO Brochure FY26Q2 Compressed
No ratings yet
ISB-CTO Brochure FY26Q2 Compressed
30 pages
Export-Import Licensing Guide
No ratings yet
Export-Import Licensing Guide
20 pages
Sumeru Digital Solutions
No ratings yet
Sumeru Digital Solutions
20 pages
RGBSI PPAP 101 Whitepaper 2020
No ratings yet
RGBSI PPAP 101 Whitepaper 2020
11 pages
Use Case Diagram
100% (1)
Use Case Diagram
17 pages
SharePoint For Pharma - SharePoint and 21 CFR Part 11 A Risk-Based Validation Approach For Life Sciences
No ratings yet
SharePoint For Pharma - SharePoint and 21 CFR Part 11 A Risk-Based Validation Approach For Life Sciences
44 pages
SCADA Systems: A Brief History
No ratings yet
SCADA Systems: A Brief History
1 page
Continuous Casting Process Automation: Optimize Your Production With Our Automation Experience
No ratings yet
Continuous Casting Process Automation: Optimize Your Production With Our Automation Experience
12 pages
865 Cld900 Sap Cloud Platform Integration Training
No ratings yet
865 Cld900 Sap Cloud Platform Integration Training
5 pages
Vodafone Egypt's Strategic ICT Use
No ratings yet
Vodafone Egypt's Strategic ICT Use
9 pages
PROG 301: Application Development and Emerging Technologies
100% (10)
PROG 301: Application Development and Emerging Technologies
50 pages
Sales Iq Best Practices Guidelines: Abhishek Singh
No ratings yet
Sales Iq Best Practices Guidelines: Abhishek Singh
12 pages
Cloud GIS: Concepts and Challenges
No ratings yet
Cloud GIS: Concepts and Challenges
12 pages

Bigdata Lecture

Uploaded by

Bigdata Lecture

Uploaded by

Big Data ecosystem

2013 - 2016 2016 - 2017 2017-2019 2019-current

Data Hardware Innovations

Big Data Variability

Daily rate in 2014

21,000 $ 600 TB 75 days

How should we store and query such data ?

Vertical scaling Horizontal scaling

Less power PRICE Much cheaper Bigger energy footprint

Open-source software for reliable, scalable, distributed computing

Web indexing from web crawlers

Playlist generation from every listens

Product recommendation from purchases

Acquisition Transport Storage Processing Servicing

Acquisition Transport Storage Processing Servicing

Acquisition Transport Storage Processing Servicing

Acquisition Transport Storage Processing Servicing

DataNode1 DataNode2 DataNode3

block 1 block 2 block 1

block 2 block 1 block 1

block 1 block 1 block 2

Key U:cookie U:is_auth U:has_t P:Product1 P:Product2 P:Product3

Acquisition Transport Storage Processing Servicing

YARN hides the resource management details from the user to

Data locality : Moving Computation is Cheaper than Moving Data

recordings = LOAD '$file' USING PigStorage(',') AS 1, « Let it go », 4.99€, 5

Acquisition Transport Storage Processing Servicing

Acquisition Transport Storage Processing Servicing

Acquisition Transport Storage Processing Servicing

You might also like