0% found this document useful (0 votes)

8 views4 pages

BigData Interview QnA

The document provides interview questions and answers related to various big data technologies including Apache Kafka, Spark, Hadoop, Hive, Zookeeper, Oozie, Flume, and Samza. Key concepts such as topics, producers, RDDs, HDFS, and workflow scheduling are explained. Each technology is summarized with essential definitions and functionalities.

Uploaded by

carley

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views4 pages

BigData Interview QnA

Uploaded by

carley

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Interview Questions and Answers

Apache Kafka

Q: What is Kafka?

A: Kafka is a distributed messaging system for real-time data streaming.

Q: What is a topic?

A: A topic is a category where messages are stored in Kafka.

Q: What is a producer and a consumer?

A: Producers send data; consumers read data from topics.

Q: What is a Kafka broker?

A: A broker is a server that stores and manages data in Kafka.

Q: What is ISR?

A: ISR (In-Sync Replica) are replicas that are synced with the leader.

Apache Spark

Q: What is Spark?

A: Spark is a big data framework for fast data processing.

Q: What is an RDD?

A: RDD (Resilient Distributed Dataset) is Spark's basic data structure.

Q: What is Spark SQL?

A: Spark SQL allows querying data with SQL.

Q: What is lineage?

A: Lineage tracks the history of RDD transformations for fault recovery.

Q: What is shuffling?

A: Shuffling moves data across nodes; it's costly but necessary for some operations.
Hadoop

Q: What is Hadoop?

A: Hadoop is a framework for storing and processing big data.

Q: What is HDFS?

A: HDFS is a distributed file system for storing large data.

Q: What are NameNode and DataNode?

A: NameNode manages metadata; DataNode stores actual data.

Q: What is YARN?

A: YARN manages resources and runs tasks in Hadoop.

Q: What is data locality?

A: Data locality means processing data close to where it is stored.

Apache Hive

Q: What is Hive?

A: Hive is a data warehouse tool for querying big data using SQL-like syntax.

Q: What is schema-on-read?

A: Hive applies a schema to data only when reading it.

Q: What is partitioning?

A: Partitioning divides data into smaller chunks for faster queries.

Q: What are Hive tables?

A: Tables in Hive can be internal (managed by Hive) or external (managed externally).

Q: What is a UDF?

A: UDFs (User Defined Functions) let you create custom query functions in Hive.

Zookeeper
Q: What is Zookeeper?

A: Zookeeper is a tool for managing distributed systems.

Q: What is a ZNode?

A: A ZNode is a data node in Zookeeper.

Q: What is a Watch?

A: A Watch is a notification mechanism for data changes.

Q: What is leader election?

A: It's the process of selecting a master server.

Q: What is a quorum?

A: A quorum is the minimum number of servers needed for decisions.

Apache Oozie

Q: What is Oozie?

A: Oozie is a workflow scheduler for Hadoop jobs.

Q: What are Oozie jobs?

A: They are workflows, coordinators, or bundles to run tasks.

Q: What is an Oozie coordinator?

A: It schedules workflows based on time or data availability.

Q: How does Oozie handle dependencies?

A: Oozie executes jobs in a predefined order.

Q: What are SLAs in Oozie?

A: SLAs ensure jobs are completed within a set time.

Apache Flume

Q: What is Flume?

A: Flume is a tool for collecting and moving log data.

Q: What are its components?

A: Source (data input), Channel (data storage), Sink (data output).

Q: What is a Flume agent?

A: A Flume agent is a single data flow unit.

Q: What is a Memory Channel?

A: A fast but volatile in-memory storage for events.

Q: What is At-Least-Once delivery?

A: Data might be duplicated but is never lost.

Apache Samza

Q: What is Samza?

A: Samza is a tool for real-time stream processing.

Q: What is stream processing?

A: Processing data as it arrives in real time.

Q: What are Samza's components?

A: Streams (data), Jobs (logic), and Tasks (process streams).

Q: What is stateful processing?

A: It uses previous data to make decisions during processing.

Q: What is a checkpoint?

A: A saved state of processing for fault recovery.

Q. What Is Big Data?
No ratings yet
Q. What Is Big Data?
8 pages
MapReduce Phases in Hadoop Ecosystem
No ratings yet
MapReduce Phases in Hadoop Ecosystem
28 pages
Big Data Processing and Tools Guide
No ratings yet
Big Data Processing and Tools Guide
11 pages
Hortonworks Data Platform (HDP)
100% (1)
Hortonworks Data Platform (HDP)
56 pages
Apache Backend Frameworks
No ratings yet
Apache Backend Frameworks
4 pages
Big Data Technology Stack Guide
100% (1)
Big Data Technology Stack Guide
12 pages
Understanding Big Data Concepts and Tools
No ratings yet
Understanding Big Data Concepts and Tools
28 pages
2022 Assignment Answers
100% (1)
2022 Assignment Answers
37 pages
Tools in Data Analytics
No ratings yet
Tools in Data Analytics
17 pages
Chapter 1
No ratings yet
Chapter 1
16 pages
1 - HADOOP Crash Course
No ratings yet
1 - HADOOP Crash Course
52 pages
BDP Unit 3
No ratings yet
BDP Unit 3
20 pages
Introduction to Hadoop Ecosystem
No ratings yet
Introduction to Hadoop Ecosystem
50 pages
Hadoop and Their Ecosystem
100% (2)
Hadoop and Their Ecosystem
24 pages
Key Differences in Database Technologies
No ratings yet
Key Differences in Database Technologies
26 pages
HDFS Node Types and User Interfaces
No ratings yet
HDFS Node Types and User Interfaces
15 pages
Open Source Big Data Technologies Guide
No ratings yet
Open Source Big Data Technologies Guide
19 pages
A1
No ratings yet
A1
33 pages
Big Data Unit 2
No ratings yet
Big Data Unit 2
277 pages
Unit 4
No ratings yet
Unit 4
85 pages
Big Data & Hadoop Ecosystem Guide
No ratings yet
Big Data & Hadoop Ecosystem Guide
4 pages
Wa0005.
No ratings yet
Wa0005.
84 pages
BD V
No ratings yet
BD V
6 pages
History of Hadoop Apache Hadoop - The Hadoop Distributed File System
No ratings yet
History of Hadoop Apache Hadoop - The Hadoop Distributed File System
8 pages
BDA Viva
No ratings yet
BDA Viva
26 pages
Unit 2
No ratings yet
Unit 2
9 pages
Types of Data and Big Data Overview
No ratings yet
Types of Data and Big Data Overview
53 pages
BigData Nov2019
No ratings yet
BigData Nov2019
50 pages
Spark Interview Questions 04
No ratings yet
Spark Interview Questions 04
4 pages
Bigdata MCQ QA Part2
No ratings yet
Bigdata MCQ QA Part2
9 pages
Overview of Hadoop Modules
100% (1)
Overview of Hadoop Modules
40 pages
Assignment Questions BDA Lec 6
No ratings yet
Assignment Questions BDA Lec 6
51 pages
Bigdata Notes
No ratings yet
Bigdata Notes
26 pages
What Is The Hadoop Ecosystem?
No ratings yet
What Is The Hadoop Ecosystem?
4 pages
Big Data Engines: Batch Processing Overview
No ratings yet
Big Data Engines: Batch Processing Overview
12 pages
Unit 5 - Introduction To Hadoop
No ratings yet
Unit 5 - Introduction To Hadoop
50 pages
Data-Intensive Computing Overview
No ratings yet
Data-Intensive Computing Overview
88 pages
Big Data Technologies (Spark & Scala) (22CSH-391) Lecture-1 (CO1)
No ratings yet
Big Data Technologies (Spark & Scala) (22CSH-391) Lecture-1 (CO1)
30 pages
Unit 4 BDTT
No ratings yet
Unit 4 BDTT
23 pages
Hadoop Ecosystem
No ratings yet
Hadoop Ecosystem
8 pages
Big Data Tools for Developers
No ratings yet
Big Data Tools for Developers
7 pages
Hadoop Ecosystem
No ratings yet
Hadoop Ecosystem
58 pages
Data Science and Big Data UNIT 3
No ratings yet
Data Science and Big Data UNIT 3
11 pages
Compute Engine
No ratings yet
Compute Engine
49 pages
99 Apache Spark Interview Questions For Professionals
33% (12)
99 Apache Spark Interview Questions For Professionals
11 pages
BDA Unit 2
No ratings yet
BDA Unit 2
52 pages
Hadoop Ecosystem
No ratings yet
Hadoop Ecosystem
5 pages
Xapache Hadoop112S1Q: Apache Software Foundation Java
No ratings yet
Xapache Hadoop112S1Q: Apache Software Foundation Java
7 pages
Module 2 Hadoop Final
No ratings yet
Module 2 Hadoop Final
98 pages
2 Hadoop Ecosystem
No ratings yet
2 Hadoop Ecosystem
41 pages
The Age OF: Every Minute
No ratings yet
The Age OF: Every Minute
47 pages
Data-Intensive Computing with Hadoop
No ratings yet
Data-Intensive Computing with Hadoop
8 pages
Hadoop Module 3 New
No ratings yet
Hadoop Module 3 New
60 pages
Exames BDF PDF
No ratings yet
Exames BDF PDF
15 pages
BDF 2022 Combined 2
No ratings yet
BDF 2022 Combined 2
266 pages
Hadoop Overview Training Material
No ratings yet
Hadoop Overview Training Material
44 pages
Understanding Hadoop Ecosystem Components
No ratings yet
Understanding Hadoop Ecosystem Components
7 pages
Overview of Apache Hadoop Components
No ratings yet
Overview of Apache Hadoop Components
7 pages
Unit 1,2,3,4
No ratings yet
Unit 1,2,3,4
116 pages
Skill 9: Adjective Clause Connectors
No ratings yet
Skill 9: Adjective Clause Connectors
13 pages
Evangelism Made Easy
No ratings yet
Evangelism Made Easy
6 pages
Lirik Sholawat
No ratings yet
Lirik Sholawat
15 pages
Class - Xi - Computer Science - MS - Final Term Examination
No ratings yet
Class - Xi - Computer Science - MS - Final Term Examination
5 pages
9 Steps To Hebrew Blood Covenant
100% (3)
9 Steps To Hebrew Blood Covenant
1 page
Lsilvaa
No ratings yet
Lsilvaa
42 pages
Fathers of The Church
No ratings yet
Fathers of The Church
12 pages
Ibanag Rules
No ratings yet
Ibanag Rules
3 pages
Supporting Multilingual Literacy in ESL
No ratings yet
Supporting Multilingual Literacy in ESL
9 pages
Multiplication Sheets
No ratings yet
Multiplication Sheets
18 pages
Array and String Manipulation Programs
No ratings yet
Array and String Manipulation Programs
9 pages
The English Language in Hong Kong: Diachronic and Synchronic Perspectives 1st Edition Stephen Evans (Auth.) No Waiting Time
No ratings yet
The English Language in Hong Kong: Diachronic and Synchronic Perspectives 1st Edition Stephen Evans (Auth.) No Waiting Time
157 pages
Tenkasi 12th Std English Quarterly 2023
No ratings yet
Tenkasi 12th Std English Quarterly 2023
4 pages
Improve Fiction Reading Comprehension
No ratings yet
Improve Fiction Reading Comprehension
9 pages
Speaking Practice
No ratings yet
Speaking Practice
2 pages
Msce Mathematics p1 2025
100% (3)
Msce Mathematics p1 2025
11 pages
MA in English Literature Program Overview
No ratings yet
MA in English Literature Program Overview
3 pages
How To Create Create Personal Sub Area in Sap Succ
No ratings yet
How To Create Create Personal Sub Area in Sap Succ
2 pages
Notable Mathematicians of Sikkim
67% (3)
Notable Mathematicians of Sikkim
3 pages
Is Vaping a Sin in Christianity?
No ratings yet
Is Vaping a Sin in Christianity?
1 page
04 PAS Install Integrations
No ratings yet
04 PAS Install Integrations
47 pages
Singapore Math Practice Level 2a Grade 3 Frank Schaffer Publications PDF Download
No ratings yet
Singapore Math Practice Level 2a Grade 3 Frank Schaffer Publications PDF Download
49 pages
1000+ Beginner Programming Projects & Practice Problems - Programmer's Motivation
No ratings yet
1000+ Beginner Programming Projects & Practice Problems - Programmer's Motivation
6 pages
Latihan Sinonim and Antonim
No ratings yet
Latihan Sinonim and Antonim
1 page
Module 3 - File Handling in Python - Ipynb - Colab
No ratings yet
Module 3 - File Handling in Python - Ipynb - Colab
11 pages
Alphabet & Consonants Lesson Plan
No ratings yet
Alphabet & Consonants Lesson Plan
74 pages
Biography A.C. Bhaktivedanta Swami Prabhupada
100% (2)
Biography A.C. Bhaktivedanta Swami Prabhupada
2 pages
The Grammar Translation Method
No ratings yet
The Grammar Translation Method
20 pages
Grammar Guide for Language Learners
No ratings yet
Grammar Guide for Language Learners
3 pages
God Gives Moses The Ten Commandments LE
No ratings yet
God Gives Moses The Ten Commandments LE
9 pages

BigData Interview QnA

Uploaded by

BigData Interview QnA

Uploaded by

Interview Questions and Answers

A: Kafka is a distributed messaging system for real-time data streaming.

A: A topic is a category where messages are stored in Kafka.

Q: What is a producer and a consumer?

A: Producers send data; consumers read data from topics.

Q: What is a Kafka broker?

A: A broker is a server that stores and manages data in Kafka.

A: Spark is a big data framework for fast data processing.

A: RDD (Resilient Distributed Dataset) is Spark's basic data structure.

Q: What is Spark SQL?

A: Spark SQL allows querying data with SQL.

A: Lineage tracks the history of RDD transformations for fault recovery.

A: Hadoop is a framework for storing and processing big data.

A: HDFS is a distributed file system for storing large data.

Q: What are NameNode and DataNode?

A: NameNode manages metadata; DataNode stores actual data.

A: YARN manages resources and runs tasks in Hadoop.

Q: What is data locality?

A: Data locality means processing data close to where it is stored.

A: Hive applies a schema to data only when reading it.

A: Partitioning divides data into smaller chunks for faster queries.

Q: What are Hive tables?

A: Tables in Hive can be internal (managed by Hive) or external (managed externally).

A: Zookeeper is a tool for managing distributed systems.

A: A ZNode is a data node in Zookeeper.

A: A Watch is a notification mechanism for data changes.

Q: What is leader election?

A: It's the process of selecting a master server.

A: A quorum is the minimum number of servers needed for decisions.

A: Oozie is a workflow scheduler for Hadoop jobs.

Q: What are Oozie jobs?

A: They are workflows, coordinators, or bundles to run tasks.

Q: What is an Oozie coordinator?

A: It schedules workflows based on time or data availability.

Q: How does Oozie handle dependencies?

A: Oozie executes jobs in a predefined order.

Q: What are SLAs in Oozie?

A: SLAs ensure jobs are completed within a set time.

A: Flume is a tool for collecting and moving log data.

A: Source (data input), Channel (data storage), Sink (data output).

Q: What is a Flume agent?

A: A Flume agent is a single data flow unit.

Q: What is a Memory Channel?

A: A fast but volatile in-memory storage for events.

Q: What is At-Least-Once delivery?

A: Data might be duplicated but is never lost.

A: Samza is a tool for real-time stream processing.

Q: What is stream processing?

A: Processing data as it arrives in real time.

Q: What are Samza's components?

A: Streams (data), Jobs (logic), and Tasks (process streams).

Q: What is stateful processing?

A: It uses previous data to make decisions during processing.

A: A saved state of processing for fault recovery.

You might also like