NIFI Project

The project aims to design an Apache NiFi workflow to ingest historical cryptocurrency price data from the Binance API for multiple coins, transforming it into Parquet format and storing it in HDFS. Key requirements include API integration, data retrieval, extraction, transformation to Parquet, and organized HDFS storage. Additionally, Spark scripts will be utilized for data handling, analysis, visualization, and correlation between different cryptocurrencies.

Uploaded by

Tauseef Nawaz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

47 views2 pages

NIFI Project

Uploaded by

Tauseef Nawaz

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Project Objective:

Design and implement a robust Apache NiFi workflow to ingest historical cryptocurrency price data
(OHLCV – Open, High, Low, Close, Volume, etc.) from the Binance API for multiple coins (BTC, ETH,
ADA, Tron, XRP and BNB), transform the raw data into Parquet format, and store it efficiently in an
HDFS environment, with separate folders for each cryptocurrency.

Columns of interest:

• timestamp - A timestamp for the minute covered by the row.

• Asset_ID - An ID code for the cryptoasset.
• Count - The number of trades that took place this minute.
• Open - The USD price at the beginning of the minute.
• High - The highest USD price during the minute.
• Low - The lowest USD price during the minute.
• Close - The USD price at the end of the minute.
• Volume - The number of cryptoasset units traded during the minute.

Key Workflow Requirements:

API Integration: Utilize Binance's REST API (/api/v3/klines or similar) to fetch historical candlestick
data.

Understand Binance's rate limiting policies and authentication needs to design appropriate flow
throttling.

Data Retrieval:

Implement batching logic to overcome the 1000-record limit per Binance API call, retrieving large
historical timeframes in iterative requests.

Construct API calls dynamically based on target cryptocurrency, desired timeframe, and
parameters for intervals (e.g., 1-day, 4-hour candles, etc.).

Data Extraction:

Use JSONPath expressions to isolate the necessary fields (timestamps, OHLCV) from Binance's API
responses.
Validate extracted data for correctness and handle potential inconsistencies.

Transformation to Parquet:

Define a suitable Avro schema for representing the candlestick data, ensuring it includes
timestamps and proper data types for price and volume columns.

Employ NiFi processors (or potentially a custom processor) to convert the extracted data into Avro
format conforming to the schema.

Generate Parquet files optimized for efficiency with columnar storage and proper compression.

HDFS Storage:

Create organized folder structures within HDFS to segregate data by cryptocurrency (e.g.,
/datalake/binance/BTC/, /datalake/binance/ETH/), potentially nested with date components for
easier querying.

Design appropriate file naming conventions for Parquet files within each folder.

SPARK

• Simple spark scripts to create dataframe that combines the different coins to do
analysis.
• Data handling and processing
• EDA
• Visualization
• Correlation between pairs

(BigData) Lab04 - Streaming
No ratings yet
(BigData) Lab04 - Streaming
8 pages
Complete ATH Retrieval Implementation Guide For MemCoinsRadar
No ratings yet
Complete ATH Retrieval Implementation Guide For MemCoinsRadar
9 pages
Stormgain Public Api: Coingecko Standards
No ratings yet
Stormgain Public Api: Coingecko Standards
11 pages
Assessment - Machine Learning
No ratings yet
Assessment - Machine Learning
6 pages
Python Crypto Data Collector Tool
No ratings yet
Python Crypto Data Collector Tool
19 pages
Building a Market Data Service Layer
No ratings yet
Building a Market Data Service Layer
23 pages
Crypto Slides Content
No ratings yet
Crypto Slides Content
12 pages
Coingecko Api Wrapper: Man C Pycoingecko
No ratings yet
Coingecko Api Wrapper: Man C Pycoingecko
8 pages
Main
No ratings yet
Main
28 pages
Exchange Rate Service
No ratings yet
Exchange Rate Service
3 pages
Grok Bot
No ratings yet
Grok Bot
34 pages
Manual
No ratings yet
Manual
43 pages
Frontend Assignmentssssss
No ratings yet
Frontend Assignmentssssss
1 page
Binance-Api Documentation
No ratings yet
Binance-Api Documentation
4 pages
How To Build A Crypto Trading - ABM
No ratings yet
How To Build A Crypto Trading - ABM
12 pages
Cryptocurrency Market Data Package
100% (1)
Cryptocurrency Market Data Package
13 pages
Deep Learning and Technical Analysis in Cryptocurrency Market
No ratings yet
Deep Learning and Technical Analysis in Cryptocurrency Market
13 pages
GodSight: On-Chain Analysis Framework
No ratings yet
GodSight: On-Chain Analysis Framework
57 pages
Crypto Order Flow Imbalance Analysis
No ratings yet
Crypto Order Flow Imbalance Analysis
13 pages
BTC Price Analysis with Python
No ratings yet
BTC Price Analysis with Python
5 pages
Parlika 2021 IOP Conf. Ser. Mater. Sci. Eng. 1125 012035
No ratings yet
Parlika 2021 IOP Conf. Ser. Mater. Sci. Eng. 1125 012035
9 pages
Algo Trading Web App Mind Map
No ratings yet
Algo Trading Web App Mind Map
3 pages
Python EMA Cross Detection Guide
No ratings yet
Python EMA Cross Detection Guide
15 pages
Stocks
No ratings yet
Stocks
3 pages
Prob Paper
No ratings yet
Prob Paper
73 pages
Cryptocurrency Data Provider Evaluation For TradeScrapperAgent System
No ratings yet
Cryptocurrency Data Provider Evaluation For TradeScrapperAgent System
2 pages
Replicating Tradingview Chart in Python
No ratings yet
Replicating Tradingview Chart in Python
30 pages
Ideas Blank Slate
No ratings yet
Ideas Blank Slate
21 pages
Ai Studio Code
No ratings yet
Ai Studio Code
4 pages
Coin Metrics API Python Module Guide
No ratings yet
Coin Metrics API Python Module Guide
26 pages
Estudiomercado
No ratings yet
Estudiomercado
5 pages
FTX API Documentation Guide
No ratings yet
FTX API Documentation Guide
277 pages
Python Data Wrangling for Crypto Analysis
No ratings yet
Python Data Wrangling for Crypto Analysis
15 pages
Practice Assignment 2
No ratings yet
Practice Assignment 2
2 pages
BTC Spot Vol
No ratings yet
BTC Spot Vol
9 pages
Tradingview Pine Script
No ratings yet
Tradingview Pine Script
15 pages
Egui Ohlc Tradingview
No ratings yet
Egui Ohlc Tradingview
8 pages
Mlfinlab Release Hudson & Thames
100% (1)
Mlfinlab Release Hudson & Thames
74 pages
The Big Book of Data Science Use Cases
No ratings yet
The Big Book of Data Science Use Cases
80 pages
Bitscrunch Whitepaper
100% (1)
Bitscrunch Whitepaper
44 pages
Banking Transaction Rate Limiting Strategies
No ratings yet
Banking Transaction Rate Limiting Strategies
8 pages
Deep Learning in Crypto Trading
No ratings yet
Deep Learning in Crypto Trading
14 pages
Aics Assignment 2 .
No ratings yet
Aics Assignment 2 .
6 pages
Python Dev
No ratings yet
Python Dev
3 pages
Assessment - Machine Learning
No ratings yet
Assessment - Machine Learning
6 pages
Crypto Price Analysis with Python
No ratings yet
Crypto Price Analysis with Python
20 pages
Daily Gold Trading Signal Analysis
No ratings yet
Daily Gold Trading Signal Analysis
7 pages
BTC Volatility Forecasting 1
No ratings yet
BTC Volatility Forecasting 1
3 pages
NSE Option Chain Analysis Script
No ratings yet
NSE Option Chain Analysis Script
5 pages
deFIRE Tokenomics Overview
No ratings yet
deFIRE Tokenomics Overview
8 pages
Trade Backtest
No ratings yet
Trade Backtest
23 pages
Orderbook Data For Make Good Orderbook Stratfy
No ratings yet
Orderbook Data For Make Good Orderbook Stratfy
10 pages
Python Binance API Guide
No ratings yet
Python Binance API Guide
132 pages
Blockchain Investigation Reference
No ratings yet
Blockchain Investigation Reference
2 pages
Stormgain Api Endpoint
No ratings yet
Stormgain Api Endpoint
15 pages
? Data Engineering HACKATHON - CASE STUDY DOCUMENT
No ratings yet
? Data Engineering HACKATHON - CASE STUDY DOCUMENT
3 pages
Talk
No ratings yet
Talk
2 pages
Appstore Auth Diagram
No ratings yet
Appstore Auth Diagram
1 page
Config Webservices API Reference Guide
No ratings yet
Config Webservices API Reference Guide
247 pages
New 1728114367508
No ratings yet
New 1728114367508
31 pages
Advance Spark
No ratings yet
Advance Spark
8 pages
String Matching Algorithms Guide
No ratings yet
String Matching Algorithms Guide
46 pages
dp-700 6
No ratings yet
dp-700 6
16 pages
Valu-Based Pricing - FAQ
No ratings yet
Valu-Based Pricing - FAQ
2 pages
Android Final
No ratings yet
Android Final
1,185 pages
The Airport Mobility Opportunity - Volume 1 USD Version
No ratings yet
The Airport Mobility Opportunity - Volume 1 USD Version
14 pages
Additive Manufacturing Essentials - WEB
No ratings yet
Additive Manufacturing Essentials - WEB
179 pages
Microsoft Word - Gosavi - PRATIK-Orgnal
No ratings yet
Microsoft Word - Gosavi - PRATIK-Orgnal
7 pages
Inspector of Factories Exam Syllabus
No ratings yet
Inspector of Factories Exam Syllabus
3 pages
2 Intercompany Sale Transactions
No ratings yet
2 Intercompany Sale Transactions
1 page
Action Research Proposal (Pupil Incentive Program)
No ratings yet
Action Research Proposal (Pupil Incentive Program)
6 pages
Storytelling in Advertising From Narrative
No ratings yet
Storytelling in Advertising From Narrative
12 pages
Liquidity Management and Profitability: A Case Study of Listed Manufacturing Companies in Sri Lanka
100% (1)
Liquidity Management and Profitability: A Case Study of Listed Manufacturing Companies in Sri Lanka
5 pages
Mineral Fuels
No ratings yet
Mineral Fuels
53 pages
Ethical Dilemma for Programmers
100% (1)
Ethical Dilemma for Programmers
2 pages
Citizens Charter
No ratings yet
Citizens Charter
27 pages
Petition for Relief: Dagupan Case Analysis
100% (1)
Petition for Relief: Dagupan Case Analysis
4 pages
Maintenance Cost Analysis and Prediction
No ratings yet
Maintenance Cost Analysis and Prediction
6 pages
Tugas 3 Bahasa Inggris Risma Aisyiyah
No ratings yet
Tugas 3 Bahasa Inggris Risma Aisyiyah
6 pages
I Paper General Studies AP Exam 2022
No ratings yet
I Paper General Studies AP Exam 2022
16 pages
GEH-6794-EX2100e Excitation Control Operation Guide
100% (4)
GEH-6794-EX2100e Excitation Control Operation Guide
62 pages
Encrypted Document Analysis
No ratings yet
Encrypted Document Analysis
16 pages
Cloud Security
No ratings yet
Cloud Security
11 pages
Empowering Local Communities: Decentralization, Empowerment and Community Driven Development
No ratings yet
Empowering Local Communities: Decentralization, Empowerment and Community Driven Development
8 pages
Week One Acct 444 Multiple
No ratings yet
Week One Acct 444 Multiple
12 pages
Emaar South: Luxury Living in Dubai
No ratings yet
Emaar South: Luxury Living in Dubai
1 page
Validitas Reliabilitas Instrumen Kehamilan
No ratings yet
Validitas Reliabilitas Instrumen Kehamilan
4 pages
Flying Qualities Criteria
No ratings yet
Flying Qualities Criteria
24 pages
MSD 7500 Installation Instructions
No ratings yet
MSD 7500 Installation Instructions
8 pages
How to Delete WhatsApp Messages Easily
No ratings yet
How to Delete WhatsApp Messages Easily
3 pages
Analisis Regresi Linier Berganda
No ratings yet
Analisis Regresi Linier Berganda
75 pages
SVAN 956 Short Manual
No ratings yet
SVAN 956 Short Manual
3 pages
Prism Cement Limited Business Overview
No ratings yet
Prism Cement Limited Business Overview
30 pages

NIFI Project

Uploaded by

NIFI Project

Uploaded by

Project Objective:

• timestamp - A timestamp for the minute covered by the row.

Key Workflow Requirements:

You might also like