0% found this document useful (0 votes)

13 views4 pages

Assignment 2 - Data Storage

The assignment requires designing a batch analytics pipeline using HDFS for data storage and Hive for querying user activity logs from a streaming platform. Key tasks include ingesting daily log files, creating Hive tables with a star schema, performing data transformations, and executing analytical queries. Deliverables include a GitHub repository with input data, a shell ingestion script, Hive DDL, transformation commands, sample queries, and a write-up explaining design choices and performance considerations.

Uploaded by

Muhammad Adnan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views4 pages

Assignment 2 - Data Storage

Uploaded by

Muhammad Adnan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Assignment 2: Building a Batch Analytics Pipeline on HDFS &

Hive

Due Date: 11:59 PM 7th March

Scenario & Objectives

Your company, MediaCo, gathers large daily logs of user activity from a streaming platform (e.g., plays, skips,
pauses). Your task is to design a batch analytics solution using HDFS for data storage and Hive for querying:

1. Ingest daily log files from a local directory into HDFS, organizing them by date.
2. Create Hive tables to store raw data (CSV/JSON) and a star schema (fact + dimension tables) for
analytics.
3. Run analytical queries to generate insights (monthly usage, top content, average session times).

Data Description

1. User Logs: (user_id, content_id, action, timestamp, device, region, session_id, ...)
○ Arrives in CSV or JSON format.
○ Each day’s logs in a local folder named YYYY-MM-DD.
2. Content Metadata (content_id, title, category, length, artist, ...)
○ Static reference data about each piece of content.

Core Requirements

1. Ingestion Script

1. Write a shell script (e.g., ingest_logs.sh) that:
■ Accepts a date parameter (e.g., 2023-09-01).
■ Parses year/month/day.
■ Copies files into HDFS under a directory like /raw/logs/<year>/<month>/<day> and
/raw/metadata/<year>/<month>/<day>
2. Raw Tables in Hive
1. Create external tables pointing to /raw/logs and /raw/metadata.
2. Partition by (year, month, day) for the log table so queries can filter by date.
3. Star Schema
1. Fact Table: e.g., fact_user_actions storing user actions (partitioned by date).
2. Dimension Table: e.g., dim_content storing content metadata.
3. Store them in a columnar format (e.g., Parquet).
4. Transformation
1. Use Hive SQL (INSERT OVERWRITE, CTAS) to move data from the raw tables to the star schema
tables.
2. Convert timestamps to proper types, if needed.
5. Queries
1. Demonstrate 2–3 analytical queries:
■ E.g., “Monthly active users by region,” “Top categories by play count,” “Average session
length weekly.”
2. Include group by, join (fact + dimension), and filters on date partitions.
6. Deliverables: Please create a GitHub repository with 2 files and 1 folder. PDF file to be uploaded on
LMS.
1. Input Data: Create a folder named raw_data and put your generated input files here
2. Shell Ingestion Script: Short .sh file name ingest_logs.sh
3. Hive DDL for raw and star schema tables. The working queries should be included in the
document.
4. Data Transformation commands. The working queries should be included in the document.
5. Sample Queries with results (Screenshots) to be included in the docs.
6. Short Write-Up with the above queries and commands. Please explain the design choices and
performance considerations. Especially including 1- how long the execution of the whole
pipeline takes. 2- query execution times.

Grading / Assessment Criteria

● Dataset generation: Generate a reasonable dataset. Feel free to increase number of days.
● Ingestion: Correct partitioning, shell script usage.
● Data Modeling: Proper star schema (fact/dimension separation), partition columns.
● Transformation: Successful movement from raw CSV to Parquet, correct field typing.
● SQL Queries: Logical joins, aggregations, beneficial use of date partitions.
● Write-Up: Clear rationale for design, mention of potential performance optimizations.

Note: There might be vivas for this assignment so understand what you are doing!

Helping Resources
1. Hive Documentation:
○ https://cwiki.apache.org/confluence/display/Hive/Home
Covers CREATE EXTERNAL TABLE, partitioning, INSERT OVERWRITE, SerDes for CSV/JSON, etc.
2. HDFS Basics:
○ https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.ht
ml
○ https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
Explains file system commands (hdfs dfs -mkdir, -put, etc.).
○ Note: Please follow the Pseudo-Distributed Operation for the deployment of a single node
cluster
(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.
html)
3. Introduction to Shell Scripting:
○ https://www.shellscript.sh/
4. Dimensional Modeling:
○ Ralph Kimball’s “The Data Warehouse Toolkit” or numerous online articles about star
schemas, fact and dimension design.
5. CSV to Parquet with Hive:
○ Example: https://docs.cloudera.com/documentation/enterprise/5-6-x/topics/cdh_ig_hive.html
Illustrates how to store final data in a columnar format.
6. Partitioning in Hive:
○ https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDD
L-PartitionedTables
For dynamic partitioning settings and partition maintenance.

Using LLM for generating synthetic data (use any free LLM)

System / User Prompt

“Please generate two separate CSV datasets that I can use to simulate a streaming application’s data in a data
engineering assignment:

1) User Activity Logs

● Columns: user_id, content_id, action, timestamp, device, region, session_id

● Number of Rows: ~20–30 per day, for at least 7 different days (e.g., 2023-09-01, 2023-09-02,
2023-09-03).
● Provide the logs in CSV format with a header row and valid data.
● The timestamp should be a full date+time (e.g., 2023-09-01 08:23:55).
● action: from {play, pause, skip, forward}, randomly assigned.
● device: from {mobile, desktop, tablet}.
● region: from {US, EU, APAC}, randomly assigned.
● session_id: short alphanumeric IDs, repeated occasionally for the same user’s session.
● user_id: integer range ~100–200; content_id: integer range ~1000–1010.
2) Content Metadata

● Columns: content_id, title, category, length, artist

● ~8–12 rows total, with content_id matching the same range used in the logs (1000–1010).
● title: short text (e.g., “Summer Vibes”, “Rock Anthem”).
● category: {Pop, Rock, Podcast, News, Jazz, etc.}, pick randomly.
● length: integer representing total seconds or minutes (e.g., 180 for 3 minutes).
● artist: random short name (e.g., “DJ Alpha”, “The Beats”).
● Provide separate CSV output for this metadata file, also with a header row.

Output Format:

● Return two code blocks:

1. The user activity logs for multiple days (with ~20–30 rows per day).
2. The content metadata (8–12 rows).
● Use valid CSV syntax, comma-delimited, including header rows.

Make sure the content_id in the logs overlaps the content_id in the metadata so we can join them later.

Thank you!”

Tips/Notes:

● Tweak the date range, row count, or field distributions. We need at least 7 days of data.
● For separate files per day, ask LLM to generate each date’s logs in a separate code block or with a
clear label.
● For realism, we want to ask for variations in user_id distribution, session_id formats, or location
(region).

Good Luck!

Data Engineering System Design
No ratings yet
Data Engineering System Design
37 pages
Cloudera Quiz 470 Practice Results
No ratings yet
Cloudera Quiz 470 Practice Results
74 pages
Exp 5 Big Data Analytics and Computing Lab Manual
No ratings yet
Exp 5 Big Data Analytics and Computing Lab Manual
28 pages
Apache Log Analysis with Hadoop Techniques
No ratings yet
Apache Log Analysis with Hadoop Techniques
4 pages
Analyzing Unstructured Data in Hadoop
No ratings yet
Analyzing Unstructured Data in Hadoop
5 pages
List of Questions Big Data
No ratings yet
List of Questions Big Data
5 pages
Int 421
No ratings yet
Int 421
2 pages
Big Data Course Overview and Tools
No ratings yet
Big Data Course Overview and Tools
4 pages
Big Data Analytics Practical Through Practice
No ratings yet
Big Data Analytics Practical Through Practice
4 pages
Exam Question Paper - BDT - 35
No ratings yet
Exam Question Paper - BDT - 35
3 pages
BIG DATA ANALYTIS LAB File Shivam
No ratings yet
BIG DATA ANALYTIS LAB File Shivam
42 pages
Big Data Hadoop - Course Curriculum - V1
No ratings yet
Big Data Hadoop - Course Curriculum - V1
7 pages
Big Data Hadoop & Spark Course
No ratings yet
Big Data Hadoop & Spark Course
30 pages
Bda3 7
No ratings yet
Bda3 7
30 pages
Big Data and Hadoop Assignment Guide
No ratings yet
Big Data and Hadoop Assignment Guide
5 pages
Big Data Acquisition and Analysis Course
No ratings yet
Big Data Acquisition and Analysis Course
4 pages
Bad601 Lab Maual
No ratings yet
Bad601 Lab Maual
34 pages
Big Data Analytics Course
No ratings yet
Big Data Analytics Course
19 pages
Ravi
No ratings yet
Ravi
4 pages
Big Data
No ratings yet
Big Data
19 pages
Bda - Cat Iii - Set Ii
No ratings yet
Bda - Cat Iii - Set Ii
3 pages
Comparing DBFS and HDFS in ETL Processes
No ratings yet
Comparing DBFS and HDFS in ETL Processes
3 pages
Big Data Assignment
No ratings yet
Big Data Assignment
3 pages
Big Data and Hadoop Course Overview
No ratings yet
Big Data and Hadoop Course Overview
6 pages
CSET 371 Course File
No ratings yet
CSET 371 Course File
81 pages
Data Analysis PHASE
No ratings yet
Data Analysis PHASE
14 pages
Big Data Analytics Course
No ratings yet
Big Data Analytics Course
3 pages
Bda QB
No ratings yet
Bda QB
5 pages
Big Data With Hadoop & Spark - VII
No ratings yet
Big Data With Hadoop & Spark - VII
3 pages
Dsbdal Te It Manual
No ratings yet
Dsbdal Te It Manual
86 pages
Tutorial For Course Work
No ratings yet
Tutorial For Course Work
15 pages
Bigdata
No ratings yet
Bigdata
3 pages
Bigdata and Hadoop
No ratings yet
Bigdata and Hadoop
39 pages
Log File Analysis
No ratings yet
Log File Analysis
4 pages
Big Data Analytics Coursework Guide
No ratings yet
Big Data Analytics Coursework Guide
7 pages
End Sem Paper
No ratings yet
End Sem Paper
4 pages
Se File
No ratings yet
Se File
25 pages
Big Data Analytics Lab Manual
No ratings yet
Big Data Analytics Lab Manual
94 pages
Data Management for Machine Learning Exam Key
No ratings yet
Data Management for Machine Learning Exam Key
12 pages
2024 25 ODD CE449 BDA Syllabus
No ratings yet
2024 25 ODD CE449 BDA Syllabus
4 pages
Assignment-3 Bda
No ratings yet
Assignment-3 Bda
5 pages
3 Hours / 70 Marks: Instructions
100% (1)
3 Hours / 70 Marks: Instructions
2 pages
Data Pipelines From Zero To Solid
No ratings yet
Data Pipelines From Zero To Solid
58 pages
DSA Practical Index
No ratings yet
DSA Practical Index
3 pages
Sales Data Analytics with Hadoop
No ratings yet
Sales Data Analytics with Hadoop
3 pages
CW1 Project Report Brief
No ratings yet
CW1 Project Report Brief
10 pages
Lab Syllabus Format
No ratings yet
Lab Syllabus Format
4 pages
NMIMS MBA BA Hadoop Project
No ratings yet
NMIMS MBA BA Hadoop Project
3 pages
KCS061 Big Data
No ratings yet
KCS061 Big Data
2 pages
Project Walkthrough (DISS2)
No ratings yet
Project Walkthrough (DISS2)
2 pages
Big Data with Spark Syllabus
No ratings yet
Big Data with Spark Syllabus
2 pages
Aggrify: ETL Job Management Overview
No ratings yet
Aggrify: ETL Job Management Overview
3 pages
UNIT5
No ratings yet
UNIT5
13 pages
Syllabus BDA
No ratings yet
Syllabus BDA
1 page
BIG Data Master
No ratings yet
BIG Data Master
24 pages
Group 3&4 Assignment
No ratings yet
Group 3&4 Assignment
6 pages
Trend Analysis of Access Patterns Using Hadoop PDF
No ratings yet
Trend Analysis of Access Patterns Using Hadoop PDF
84 pages
NUST at A Glance
No ratings yet
NUST at A Glance
10 pages
Exploring Client-Server Connections
No ratings yet
Exploring Client-Server Connections
32 pages
Job Offer Email Template
No ratings yet
Job Offer Email Template
1 page
Admin, 32788
No ratings yet
Admin, 32788
9 pages
Content Scheduling
No ratings yet
Content Scheduling
2 pages
IT460 Software Quality Assurance
No ratings yet
IT460 Software Quality Assurance
3 pages
Graduate Programmes (SBASSE) - Fall - 2025 MS Artificial Intelligence
No ratings yet
Graduate Programmes (SBASSE) - Fall - 2025 MS Artificial Intelligence
4 pages
Shaukat Khanum Memorial Cancer Hospital & Research Centre
No ratings yet
Shaukat Khanum Memorial Cancer Hospital & Research Centre
1 page
Premium Organic Cheesecloth 2 Yards
No ratings yet
Premium Organic Cheesecloth 2 Yards
4 pages
7.+79-89+Dean+Mervyn Analysis+of+Character+Design+in+Gacha+Games+
No ratings yet
7.+79-89+Dean+Mervyn Analysis+of+Character+Design+in+Gacha+Games+
11 pages
Recent Progress and Future Prospects of Silicon Solar Module Recycling
No ratings yet
Recent Progress and Future Prospects of Silicon Solar Module Recycling
9 pages
Mathematics Grade 10 Control Test
No ratings yet
Mathematics Grade 10 Control Test
7 pages
Lec 1 Introduction To Reinforced Concrete Design
100% (1)
Lec 1 Introduction To Reinforced Concrete Design
14 pages
Lincoln PowerWave 455M
No ratings yet
Lincoln PowerWave 455M
44 pages
Guide Checklist - Annex
No ratings yet
Guide Checklist - Annex
12 pages
FS1 Episode 11 Amtalao Michelle
No ratings yet
FS1 Episode 11 Amtalao Michelle
16 pages
Manual de Serviços de Fluidos para Produtos Cummins®
No ratings yet
Manual de Serviços de Fluidos para Produtos Cummins®
34 pages
NHSFPX4000 Assessment 3 Applying Ethical Principles
No ratings yet
NHSFPX4000 Assessment 3 Applying Ethical Principles
6 pages
Client Visit Report: Plot Sales Update
No ratings yet
Client Visit Report: Plot Sales Update
24 pages
Aci Committee 336 Footing, Mats and Drilled Piers
No ratings yet
Aci Committee 336 Footing, Mats and Drilled Piers
6 pages
Price Circular 16.04.2025
No ratings yet
Price Circular 16.04.2025
1 page
Jibble - Malaysia Labour Laws - January 2, 2025
No ratings yet
Jibble - Malaysia Labour Laws - January 2, 2025
8 pages
Chapter 11: The Growth of Democracy (1824-1840)
No ratings yet
Chapter 11: The Growth of Democracy (1824-1840)
5 pages
FTB129 - Detail of Beam
No ratings yet
FTB129 - Detail of Beam
1 page
AI Weather Reasoning System Report
No ratings yet
AI Weather Reasoning System Report
12 pages
Wft009281 CWD Bit
No ratings yet
Wft009281 CWD Bit
4 pages
Off Struc Probs
No ratings yet
Off Struc Probs
17 pages
E57XX Upgrade Procedure
No ratings yet
E57XX Upgrade Procedure
20 pages
Woodcarving PDF
No ratings yet
Woodcarving PDF
84 pages
Aviation Internship Agreement 2024
No ratings yet
Aviation Internship Agreement 2024
3 pages
Use of The Ultrasonic Time of Flight Diffraction (TOFD) Technique
No ratings yet
Use of The Ultrasonic Time of Flight Diffraction (TOFD) Technique
13 pages
UNIX and C Standards
No ratings yet
UNIX and C Standards
16 pages
From Immigrant To Transmigrant: Theorizing Transnational Migration
No ratings yet
From Immigrant To Transmigrant: Theorizing Transnational Migration
16 pages
Lokpal and Lokayukta - UPSC Notes
No ratings yet
Lokpal and Lokayukta - UPSC Notes
6 pages
Form Four Midterm Exams 2024
No ratings yet
Form Four Midterm Exams 2024
2 pages
Entrepreneurial Intention of The Cotabato City State Polytechnic College (CCSPC) - Bachelor of Science in Business Administration (BSBA) Graduates
No ratings yet
Entrepreneurial Intention of The Cotabato City State Polytechnic College (CCSPC) - Bachelor of Science in Business Administration (BSBA) Graduates
10 pages
Topcon GTS-235 Total Station: Guide
No ratings yet
Topcon GTS-235 Total Station: Guide
12 pages
Apqp Critical Supplier Status Report
No ratings yet
Apqp Critical Supplier Status Report
8 pages
Faculty Training Program 2024 Details
No ratings yet
Faculty Training Program 2024 Details
6 pages

Assignment 2 - Data Storage

Uploaded by

Assignment 2 - Data Storage

Uploaded by

Assignment 2: Building a Batch Analytics Pipeline on HDFS &

Due Date: 11:59 PM 7th March

Scenario & Objectives

1.​ Ingestion Script

Grading / Assessment Criteria

System / User Prompt

1) User Activity Logs

●​ Columns: user_id, content_id, action, timestamp, device, region, session_id

●​ Columns: content_id, title, category, length, artist

●​ Return two code blocks:

You might also like

1. Ingestion Script

● Columns: user_id, content_id, action, timestamp, device, region, session_id

● Columns: content_id, title, category, length, artist

● Return two code blocks: