0% found this document useful (0 votes)

33 views4 pages

Lab - 01 - Data Engineering Practice

The document outlines a three-part process for data ingestion, processing, and orchestration using real-world datasets, specifically the New York Taxi Trips Data. It includes tasks for downloading the dataset, loading it into a database, transforming the data with Pandas and SQL, and automating the process with Apache Airflow. Additional resources for datasets and tutorials are provided, along with suggestions for further exploration in cloud deployment and real-time data ingestion.

Uploaded by

Tuấn Đỗ Anh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

33 views4 pages

Lab - 01 - Data Engineering Practice

Uploaded by

Tuấn Đỗ Anh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

1: Data Ingestion & Storage

Task 1: Download a Real-world Dataset

Dataset: New York Taxi Trips Data

Download: NYC Taxi Data (Parquet format)
Alternative: Kaggle Datasets (Download CSV datasets)

Task 2: Load Data into a Local Database

• Install and Use PostgreSQL (or SQLite) as a database.

• Write a Python script to load data into the database.

Resources:

• PostgreSQL Installation Guide

• Pandas to PostgreSQL (Tutorial)

• SQLite Quickstart

Practice Steps:
Install PostgreSQL or SQLite.
Use Pandas to read the dataset.
Write a Python script to insert data into the database.
2: Data Processing & Transformation
Task 3: Transform Data Using Pandas & SQL

• Filter out invalid data (e.g., negative trip distances).

• Convert datetime columns into proper formats.

• Aggregate data (e.g., average fare per trip).

Resources:

• SQL Basics (W3Schools)

• Pandas Data Transformations

Practice Steps:
Write SQL queries to clean the data.
Perform aggregations using Pandas.
3: Data Orchestration with Apache Airflow
Task 4: Automate Data Processing with Airflow

• Install Apache Airflow (pip install apache-airflow).

• Create an Airflow DAG (Directed Acyclic Graph) to automate:

• Ingesting data from the dataset.

• Transforming data using SQL.

• Storing results in a database.

Resources:

• Airflow Quickstart Guide

• Airflow DAGs Tutorial

Practice Steps:
Install Airflow and configure it.
Write a DAG to automate data ingestion & transformation.
Schedule the DAG to run every fixed interval e.g.: 5 minute or every hour:
Additional Resources for Downloading Notebooks &
Datasets
Open Datasets

1. Kaggle – [Link]

2. Google Dataset Search – [Link]

3. AWS Open Data – [Link]

4. NYC Taxi Data – [Link]

Jupyter Notebooks & Tutorials

1. DataTalksClub Data Engineering

Zoomcamp – [Link]

2. Data Engineering Notebooks

(GitHub) – [Link]

3. Pandas & SQL Practice Notebooks – [Link]

4. Apache Airflow
Examples – [Link]

What You Will Have Built in 3 Labs Above:

Ingested a real dataset into a database (PostgreSQL).

Transformed & cleaned data using Pandas & SQL.
Automated data processing with Apache Airflow.
Created a reproducible data pipeline for ML.

📌 What's Next?
If you have more time, try these:
Deploy your pipeline on the cloud (AWS/GCP/Azure).
Use Kafka for real-time data ingestion.
Implement a Feature Store with Feast.

5-Day KVCET Bootcamp - Data Analytics
No ratings yet
5-Day KVCET Bootcamp - Data Analytics
6 pages
DuckDB and SFTP in Data Engineering
No ratings yet
DuckDB and SFTP in Data Engineering
7 pages
Data Analyst Training Guide
No ratings yet
Data Analyst Training Guide
4 pages
Efficient Data Preparation: With Python
No ratings yet
Efficient Data Preparation: With Python
19 pages
De Programs2
No ratings yet
De Programs2
16 pages
Vivek 210033252 BDCW - Ipynb - Colaboratory
No ratings yet
Vivek 210033252 BDCW - Ipynb - Colaboratory
112 pages
01 - DS and Env Setup
No ratings yet
01 - DS and Env Setup
17 pages
Data Science & ML Professional Profile
No ratings yet
Data Science & ML Professional Profile
2 pages
Python Data Science Tools & Resources
No ratings yet
Python Data Science Tools & Resources
3 pages
? Complete Roadmap To Become A Professional Data Scientist
No ratings yet
? Complete Roadmap To Become A Professional Data Scientist
5 pages
Data Science Self-Learning Guide
100% (3)
Data Science Self-Learning Guide
16 pages
Data Task Breakdown
No ratings yet
Data Task Breakdown
12 pages
Tackling Big Data Using Matlab
No ratings yet
Tackling Big Data Using Matlab
73 pages
Himanshu Gupta Configuration Manual
No ratings yet
Himanshu Gupta Configuration Manual
16 pages
Document 4
No ratings yet
Document 4
42 pages
Master Data Science With Python
No ratings yet
Master Data Science With Python
87 pages
Mind Mapping v1.2
No ratings yet
Mind Mapping v1.2
4 pages
Bhavnesh Baghel's Resume
No ratings yet
Bhavnesh Baghel's Resume
2 pages
Asmat Pace Tech 3-20-24
No ratings yet
Asmat Pace Tech 3-20-24
52 pages
DataGrokr Technical Assignment - Data Engineering - Internshala
No ratings yet
DataGrokr Technical Assignment - Data Engineering - Internshala
5 pages
Project Data Eng
No ratings yet
Project Data Eng
2 pages
Customer Segmentation 2
No ratings yet
Customer Segmentation 2
19 pages
Azure de and Fabric de Full Edited
No ratings yet
Azure de and Fabric de Full Edited
7 pages
Data Science Product Development Lecture 1
No ratings yet
Data Science Product Development Lecture 1
39 pages
Vamshi ml-1,2
No ratings yet
Vamshi ml-1,2
25 pages
AI & ML Course Plan for Coders
No ratings yet
AI & ML Course Plan for Coders
18 pages
Data Science With Python Workflow: Click The Links For Documentation
No ratings yet
Data Science With Python Workflow: Click The Links For Documentation
2 pages
Random Text File 2
No ratings yet
Random Text File 2
1 page
Ai For IT Non Coders
No ratings yet
Ai For IT Non Coders
14 pages
Big Data in Python
No ratings yet
Big Data in Python
10 pages
AdityaPandey Cdac
No ratings yet
AdityaPandey Cdac
2 pages
Naukri SuvarnaKhairnar (5y 8m)
No ratings yet
Naukri SuvarnaKhairnar (5y 8m)
2 pages
Data Science C
No ratings yet
Data Science C
21 pages
Unit 2 Data Science
No ratings yet
Unit 2 Data Science
12 pages
Data Science With Python Workflow
100% (2)
Data Science With Python Workflow
2 pages
Self Intoduction 1 Project
No ratings yet
Self Intoduction 1 Project
11 pages
Artificial Intelligence 3171105 Lab Manual
No ratings yet
Artificial Intelligence 3171105 Lab Manual
38 pages
Essential Data Science Projects Guide
No ratings yet
Essential Data Science Projects Guide
1 page
Lavajiit Singh CV
No ratings yet
Lavajiit Singh CV
3 pages
ML Lab Syllabus for Students
No ratings yet
ML Lab Syllabus for Students
90 pages
Data Engineering Roadmap Guide
No ratings yet
Data Engineering Roadmap Guide
3 pages
Wa0013.
No ratings yet
Wa0013.
12 pages
Comprehensive Data Science Guide
No ratings yet
Comprehensive Data Science Guide
10 pages
Macse502 Programming-For-data-science Eth 1.0 83 Macse502
No ratings yet
Macse502 Programming-For-data-science Eth 1.0 83 Macse502
4 pages
BDDA - Course Outline
No ratings yet
BDDA - Course Outline
3 pages
Data Engineering Nanodegree Program Syllabus
33% (3)
Data Engineering Nanodegree Program Syllabus
15 pages
Big Data Systems A Software Engineering Perspective
No ratings yet
Big Data Systems A Software Engineering Perspective
39 pages
Instructions For Big Data Assignment
No ratings yet
Instructions For Big Data Assignment
5 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
Capstone Story Presentation
No ratings yet
Capstone Story Presentation
21 pages
Data Science Internship Task List
No ratings yet
Data Science Internship Task List
10 pages
ML Lab File
No ratings yet
ML Lab File
33 pages
Data Engineering 6 Months Plan
No ratings yet
Data Engineering 6 Months Plan
3 pages
Python for High School Data Exploration
No ratings yet
Python for High School Data Exploration
28 pages
Data Analyst - Data Engineer
No ratings yet
Data Analyst - Data Engineer
7 pages
NoSQL Databases Course Guide
No ratings yet
NoSQL Databases Course Guide
10 pages
Data Science & Big Data Lab Guide
No ratings yet
Data Science & Big Data Lab Guide
167 pages
Gestalt Principles in Visual Storytelling
No ratings yet
Gestalt Principles in Visual Storytelling
41 pages
Understanding Unemployment Dynamics
No ratings yet
Understanding Unemployment Dynamics
27 pages
Chap 5
No ratings yet
Chap 5
25 pages
Verbal Reasoning
No ratings yet
Verbal Reasoning
11 pages
Lecture 4
No ratings yet
Lecture 4
40 pages
SQL Commands and Functions Guide
No ratings yet
SQL Commands and Functions Guide
43 pages
Test Bank For Modern Database Management 11th Edition by Hoffer
70% (10)
Test Bank For Modern Database Management 11th Edition by Hoffer
26 pages
Full Stack Engineering Prep Program
67% (3)
Full Stack Engineering Prep Program
75 pages
Computer Application Major-Minor Sem 2
No ratings yet
Computer Application Major-Minor Sem 2
32 pages
MiddleEast2017 Using Phast Safeti Effectively and Efficiently - Practical Tips and Tricks ME
No ratings yet
MiddleEast2017 Using Phast Safeti Effectively and Efficiently - Practical Tips and Tricks ME
49 pages
Nifi 210415 Student Slides
No ratings yet
Nifi 210415 Student Slides
471 pages
KESCO Document Management Proposal
No ratings yet
KESCO Document Management Proposal
34 pages
CV314-3 Cloverleaf Interchange Design
No ratings yet
CV314-3 Cloverleaf Interchange Design
26 pages
Expdp Impdp Log
No ratings yet
Expdp Impdp Log
29 pages
Appworld: A Controllable World of Apps and People For Benchmarking Interactive Coding Agents
100% (1)
Appworld: A Controllable World of Apps and People For Benchmarking Interactive Coding Agents
55 pages
Database Creation and Management Guide
No ratings yet
Database Creation and Management Guide
7 pages
Dbms Lab Viva
No ratings yet
Dbms Lab Viva
7 pages
Top 20 Python Full Stack Interview Questions and Answers
No ratings yet
Top 20 Python Full Stack Interview Questions and Answers
10 pages
Xi DBMS
No ratings yet
Xi DBMS
21 pages
Data and Its Types
No ratings yet
Data and Its Types
6 pages
NSN FLexi Troubleshooting Guide
No ratings yet
NSN FLexi Troubleshooting Guide
52 pages
QA Automation Lead
No ratings yet
QA Automation Lead
2 pages
ISM Lab Manual Answers Saksham
No ratings yet
ISM Lab Manual Answers Saksham
3 pages
A Project Report On: Student Registration System
No ratings yet
A Project Report On: Student Registration System
26 pages
Unit 1: The Online World Revision
No ratings yet
Unit 1: The Online World Revision
12 pages
Customer Relationship Management A Databased Approach: V. Kumar Werner J. Reinartz
No ratings yet
Customer Relationship Management A Databased Approach: V. Kumar Werner J. Reinartz
24 pages
WP - Tackling The Universal Journal (ACODCA) Data Challenge - F
No ratings yet
WP - Tackling The Universal Journal (ACODCA) Data Challenge - F
22 pages
Design Phase Document OF Library Management System: Group #5
100% (1)
Design Phase Document OF Library Management System: Group #5
13 pages
783 Sap SD Dangerous Goods Management
100% (2)
783 Sap SD Dangerous Goods Management
13 pages
Plagiarism Report PDF
No ratings yet
Plagiarism Report PDF
75 pages
MixPanel-architecture June2018
No ratings yet
MixPanel-architecture June2018
14 pages
Ket Noi SQLite Voi Csharp
No ratings yet
Ket Noi SQLite Voi Csharp
4 pages
Wa0004.
No ratings yet
Wa0004.
51 pages
RajaRajeshwari - Balasubramani (CA)
No ratings yet
RajaRajeshwari - Balasubramani (CA)
7 pages
IBM Cognos 8 Business Intelligence: Transformer User Guide
No ratings yet
IBM Cognos 8 Business Intelligence: Transformer User Guide
435 pages

Lab - 01 - Data Engineering Practice

Uploaded by

Lab - 01 - Data Engineering Practice

Uploaded by

1: Data Ingestion & Storage

Task 1: Download a Real-world Dataset

Dataset: New York Taxi Trips Data

Task 2: Load Data into a Local Database

• Install and Use PostgreSQL (or SQLite) as a database.

• Write a Python script to load data into the database.

• PostgreSQL Installation Guide

• Pandas to PostgreSQL (Tutorial)

• Filter out invalid data (e.g., negative trip distances).

• Convert datetime columns into proper formats.

• Aggregate data (e.g., average fare per trip).

• SQL Basics (W3Schools)

• Pandas Data Transformations

• Install Apache Airflow (pip install apache-airflow).

• Create an Airflow DAG (Directed Acyclic Graph) to automate:

• Ingesting data from the dataset.

• Transforming data using SQL.

• Storing results in a database.

• Airflow Quickstart Guide

• Airflow DAGs Tutorial

2. Google Dataset Search – [Link]

3. AWS Open Data – [Link]

4. NYC Taxi Data – [Link]

Jupyter Notebooks & Tutorials

1. DataTalksClub Data Engineering

2. Data Engineering Notebooks

3. Pandas & SQL Practice Notebooks – [Link]

What You Will Have Built in 3 Labs Above:

Ingested a real dataset into a database (PostgreSQL).

You might also like