0% found this document useful (0 votes)

98 views2 pages

Unit 3 Analyzing Data With Hadoop Notes

The document outlines key concepts related to analyzing data with Hadoop, including various data formats such as Text, Sequence, Avro, and Parquet. It details the Hadoop framework for large-scale data analysis, focusing on HDFS for storage, data processing methods, and the importance of Hadoop I/O for serialization and compression. Additionally, it highlights Apache Avro for data serialization and schema evolution.

Uploaded by

Krishnendu Ghosh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

98 views2 pages

Unit 3 Analyzing Data With Hadoop Notes

Uploaded by

Krishnendu Ghosh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Unit 3: Analyzing Data with Hadoop

1. Data Format

Before analyzing big data, it must be in a proper format. Common formats include:

- Text Files: Simple, human-readable, but not efficient for large datasets.

- Sequence Files: Binary files storing sequences of key-value pairs.

- Avro: Row-based storage format used for serializing data.

- Parquet: Column-based storage ideal for analytical queries.

Example: A retail store might store customer purchase history in Parquet format for faster analysis.

2. Analyzing Data with Hadoop

Hadoop is used for large-scale data analysis. The key steps are:

- Scaling Out: Uses many inexpensive machines (nodes) to process data in parallel.

- Hadoop Streaming: Write MapReduce programs in languages like Python, Perl, etc.

- Hadoop Pipes: A C++ interface for Hadoop MapReduce.

Example: Processing log files from thousands of users using Hadoop Streaming and MapReduce.

3. Hadoop Distributed File System (HDFS)

HDFS is the storage layer of Hadoop. It breaks down big data files into blocks and distributes them:

- Blocks: Default size is 128MB/256MB.

- Replication: Each block is copied across nodes (default = 3).

- Java Interface: APIs to interact with HDFS.

- Data Flow: Input -> Split -> Map -> Shuffle & Sort -> Reduce -> Output.

Example: A 500MB file is split and replicated across nodes for fault tolerance.

4. Hadoop I/O

Handles serialization, compression, and data integrity:

- Data Integrity: Uses checksums to prevent corruption.

- Compression: Reduces disk space (e.g., Snappy, Gzip).

- Serialization: Converts data for storage/transmission.

- Writable Interface: Custom serialization in Hadoop.

5. Avro

Apache Avro is a framework for data serialization:

- File-Based Data Structures: Stores schema with data.

- Schema Evolution: Supports forward/backward compatibility.

Use Case: Used in pipelines, Kafka, and service communication.

Summary Table

Topic: Data Formats | Key Points: Text, Sequence, Avro, Parquet

Topic: Hadoop Analysis | Key Points: Scaling, Streaming, Pipes

Topic: HDFS | Key Points: Blocks, Replication, Java Interface

Topic: Hadoop I/O | Key Points: Compression, Serialization, Data Integrity

Topic: Avro | Key Points: Self-describing, schema evolution

Unit IV Basics - of - Hadoop
No ratings yet
Unit IV Basics - of - Hadoop
20 pages
Unit 3-BDA
50% (2)
Unit 3-BDA
26 pages
Unit Iii Basics - of - Hadoop
No ratings yet
Unit Iii Basics - of - Hadoop
46 pages
Hadoop Basics for Data Science Students
No ratings yet
Hadoop Basics for Data Science Students
22 pages
New Printout
No ratings yet
New Printout
5 pages
Unit IV Basics of Hadoop
No ratings yet
Unit IV Basics of Hadoop
21 pages
Unit Iii
No ratings yet
Unit Iii
107 pages
Unit 4
No ratings yet
Unit 4
14 pages
HADOOP Notes Unit 3 and 4
No ratings yet
HADOOP Notes Unit 3 and 4
14 pages
IV-UNIT - BIG - DATA (2 Files Merged)
No ratings yet
IV-UNIT - BIG - DATA (2 Files Merged)
25 pages
Unit-4-Unit-4-Bda EDIT
No ratings yet
Unit-4-Unit-4-Bda EDIT
16 pages
Unit 4 Bda
No ratings yet
Unit 4 Bda
19 pages
Understanding Hadoop Ecosystem Components
No ratings yet
Understanding Hadoop Ecosystem Components
7 pages
Csen 3101
No ratings yet
Csen 3101
11 pages
Big Data Analytics - Basics of Hadoop
No ratings yet
Big Data Analytics - Basics of Hadoop
15 pages
Unit 4 Bda
No ratings yet
Unit 4 Bda
33 pages
Bda Unit-4 Notes
No ratings yet
Bda Unit-4 Notes
15 pages
Big Data Analytics
No ratings yet
Big Data Analytics
8 pages
Big Data Analytics Unit-3
No ratings yet
Big Data Analytics Unit-3
15 pages
Bda Unit - 3
No ratings yet
Bda Unit - 3
15 pages
Introduction to Apache Hadoop
No ratings yet
Introduction to Apache Hadoop
12 pages
CT2 BDTT
No ratings yet
CT2 BDTT
6 pages
Hadoop Ecosystem Overview and Commands
No ratings yet
Hadoop Ecosystem Overview and Commands
9 pages
Hadoop Basics: Data Formats & Analysis
No ratings yet
Hadoop Basics: Data Formats & Analysis
22 pages
2.2. Components of Hadoop - Analysing
No ratings yet
2.2. Components of Hadoop - Analysing
16 pages
Unit 2
No ratings yet
Unit 2
9 pages
Big Data
No ratings yet
Big Data
11 pages
Module 2. 16974328568170
No ratings yet
Module 2. 16974328568170
113 pages
Bda Lab Manual
0% (1)
Bda Lab Manual
40 pages
BDA Unit 3
No ratings yet
BDA Unit 3
7 pages
Session3 - 4-Bigdata Tools and Movie Use Case
No ratings yet
Session3 - 4-Bigdata Tools and Movie Use Case
79 pages
BDA Unit-4
No ratings yet
BDA Unit-4
47 pages
BIG Data - Unit - 2
No ratings yet
BIG Data - Unit - 2
24 pages
Hadoop
No ratings yet
Hadoop
61 pages
BDA Module 2
No ratings yet
BDA Module 2
40 pages
Attachment
No ratings yet
Attachment
11 pages
Act2 - March7 - 6E - BDA - SEC
No ratings yet
Act2 - March7 - 6E - BDA - SEC
8 pages
Bda Unit34
No ratings yet
Bda Unit34
17 pages
Hadoop Tools and Concepts Overview
No ratings yet
Hadoop Tools and Concepts Overview
57 pages
Module - 2 Half
No ratings yet
Module - 2 Half
12 pages
4.1 HDFS Federation Namenode
No ratings yet
4.1 HDFS Federation Namenode
22 pages
BDA Module 3
No ratings yet
BDA Module 3
69 pages
Notes - Unit 4 - Basics of Hadoop-3-16
No ratings yet
Notes - Unit 4 - Basics of Hadoop-3-16
14 pages
Bda Module 2
No ratings yet
Bda Module 2
12 pages
HADOOP ECOSSYTEM, COMPONENTS, Loading, Getting Data From Hadoop
No ratings yet
HADOOP ECOSSYTEM, COMPONENTS, Loading, Getting Data From Hadoop
10 pages
Hadoop for Big Data Enthusiasts
No ratings yet
Hadoop for Big Data Enthusiasts
42 pages
Hadoop for Big Data Professionals
No ratings yet
Hadoop for Big Data Professionals
24 pages
Unit 3 (Big Data Analytics)
No ratings yet
Unit 3 (Big Data Analytics)
18 pages
BDA - Unit - II Big Data
No ratings yet
BDA - Unit - II Big Data
43 pages
Bda Notes
No ratings yet
Bda Notes
110 pages
Hadoop
No ratings yet
Hadoop
154 pages
Unit 4 Endsem PYQs
No ratings yet
Unit 4 Endsem PYQs
24 pages
1 - HADOOP Crash Course
No ratings yet
1 - HADOOP Crash Course
52 pages
Sdcbdasparkweek1 1
No ratings yet
Sdcbdasparkweek1 1
9 pages
HDFS Architecture and Components Overview
No ratings yet
HDFS Architecture and Components Overview
5 pages
IDS Unit3
No ratings yet
IDS Unit3
19 pages

Unit 3 Analyzing Data With Hadoop Notes

Uploaded by

Unit 3 Analyzing Data With Hadoop Notes

Uploaded by

Unit 3: Analyzing Data with Hadoop

- Sequence Files: Binary files storing sequences of key-value pairs.

- Avro: Row-based storage format used for serializing data.

- Parquet: Column-based storage ideal for analytical queries.

2. Analyzing Data with Hadoop

- Hadoop Pipes: A C++ interface for Hadoop MapReduce.

3. Hadoop Distributed File System (HDFS)

- Blocks: Default size is 128MB/256MB.

- Replication: Each block is copied across nodes (default = 3).

- Java Interface: APIs to interact with HDFS.

Handles serialization, compression, and data integrity:

- Data Integrity: Uses checksums to prevent corruption.

- Serialization: Converts data for storage/transmission.

- Writable Interface: Custom serialization in Hadoop.

Apache Avro is a framework for data serialization:

- File-Based Data Structures: Stores schema with data.

- Schema Evolution: Supports forward/backward compatibility.

Use Case: Used in pipelines, Kafka, and service communication.

Topic: Data Formats | Key Points: Text, Sequence, Avro, Parquet

Topic: Hadoop Analysis | Key Points: Scaling, Streaming, Pipes

Topic: HDFS | Key Points: Blocks, Replication, Java Interface

Topic: Hadoop I/O | Key Points: Compression, Serialization, Data Integrity

Topic: Avro | Key Points: Self-describing, schema evolution

You might also like