0% found this document useful (0 votes)

4 views9 pages

PROJECT 6 Python

The document outlines a project to create an end-to-end data pipeline for tracking policy status transitions using Azure, Databricks, and Snowflake. It details the architecture, data transformation processes across Bronze, Silver, and Gold layers, and the final storage of processed data in Snowflake. The pipeline aims to maintain a comprehensive view of policy lifecycles, ensuring data quality and facilitating strategic insights.

Uploaded by

nikhilranjan2357

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views9 pages

PROJECT 6 Python

Uploaded by

nikhilranjan2357

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Policy Lifecycle Tracking Project | End-to-End

Azure Pipeline with Databricks & Snowflake

Project Summary

ㆍ Objective: To build a data pipeline for tracking policy status transitions over time by
ingesting, transforming, and storing policy data from raw sources to a refined analytical state.

ㆍ Source: Daily policy data stored in a Blob Storage (Raw Folder).

ㆍ Destination: A Snowflake data warehouse, with intermediate transformations and data

quality layers handled in Azure Data Lake Gen2 and Databricks.

ㆍ Purpose: Maintain a full lifecycle view of each policy, track changes in status, and compute
the duration spent in each status phase.

Architecture diagram:

The end-to-End pipeline with dynamic parameters

Pipeline debug result for day-1 file

Data Transformation & Workflow

1. Bronze Layer (Raw Ingestion)

ㆍ Ingest daily policy data from Azure Blob Storage into ADLS Gen2 Bronze folder.

ㆍ Raw data is stored as-is, preserving original structure for audit and traceability.

2. Silver Layer (Cleansing & Standardization)

ㆍ Use Databricks to process Bronze layer data.

ㆍ Apply cleansing (null handling, schema enforcement) and standardization (field renaming,
type casting).

ㆍ Store cleaned and standardized data in the Silver folder in ADLS Gen2.

Silver transformation logic is

# Import the required functions and types

from [Link] import *

#Read policy file

policy_df = [Link]("csv").option("header", "true").option("inferSchema",

"true").load("/mnt/bronze/policy_snapshot_*.csv")

# data cleansing

policy_clean_df=policy_df.withColumn("policy_status",trim(col("policy_status"))) \

.withColumn("policy_status",
when(col("policy_status").isin("submited","Submited"),"Submitted").

when(col("policy_status").isin("Actve","actve"),"Active").

when(col("policy_status").isin("Canceld","canceld"),"Cancelled").

when(col("policy_status").isin("Mature","mature"),"Mature").

otherwise(initcap(col("policy_status")))) \

.withColumn("submission_date",col("submission_date").cast(DateType())) \

.withColumn("status_update_date",to_date(col("status_update_date"))) \

.withColumn("agent_id",trim(col("agent_id"))) \

.withColumn("agent_id", when(col("agent_id").isNull(),
lit("UNKNOWN")).otherwise(col("agent_id"))) \

.fillna("UNKNOWN","policy_status") \

.dropna(subset=["submission_date", "status_update_date"])
#Read region file

region_df=[Link]("csv") \

.option("header", "true") \

.option("inferSchema", "true") \

.load("/mnt/region/[Link]")

#join policy and region files

policy_region_df=policy_clean_df.join(region_df,policy_clean_df.region
==region_df.region_id,"inner").drop("region_id")

# validation rule

valid_statuses = ["Submitted","Active","Cancelled","Mature"]

policy_validated_df=policy_region_df.filter(col("policy_status").isin(valid_statuses))

# Add audit information

df_silver = policy_validated_df.withColumn("ingesttime", current_timestamp())

# Write to silver table

df_silver.[Link]("overwrite").format("delta").save("/mnt/silver/policy")

The transformed file is in silver folder as shown below

3. Gold Layer (Business Transformations)

ㆍ Read Silver data into Databricks.

ㆍ Apply business logic to generate the Policy Dimension (policy_dim) table:

• Append daily data to maintain historical versions of policy records.

• Capture all phase changes for each policy.

ㆍ Store policy_dim table into Snowflake as a dimensional table.

4. Policy Status Tracking

ㆍ Read policy_dim table from Snowflake.

ㆍ Compute previous status, current status, and date difference between transitions using
window functions or lag operations.

ㆍ Store the output as policy_track_status table in Snowflake

Gold layer transformation logic is

# Import the required functions and types

from [Link] import *

from [Link] import Window

#read Policy file

policy_df = [Link]("delta").load("/mnt/silver/policy")

#Access snowflake account

sfOptions = {

"sfURL": "[Link]

"sfDatabase": "POLICY_DATA_DB",

"sfSchema": "GOLD_LAYER",

"sfWarehouse": "POLICY_WH",

"sfRole": "ACCOUNTADMIN",

"sfUser": "AAAAAAAAAAAA",

"sfPassword": "XXXXXXXXXXXX",

#write dim current table

policy_df.write \

.format("snowflake") \

.options(**sfOptions) \

.option("dbtable", "policy_dim") \

.mode("append") \

.save()
#Read the latest policy dim table

policy_dim_current = [Link] \

.format("snowflake") \

.options(**sfOptions) \

.option("dbtable", "policy_dim") \

.load()

#Lifecycle Status Tracking | get previous and next status

windowfunc=[Link]("policy_id").orderBy("status_update_date")

policy_status_df =
policy_dim_current.withColumn("prev_status",lag("policy_status").over(windowfunc)) \

.withColumn("prev_status_update_date",lag("status_update_date").over(windowfunc))

policy_diff_df =
policy_status_df.withColumn("No_of_day_in_status",datediff(col("status_update_date"),col("p
rev_status_update_date")))

policy_track_status_df = policy_diff_df \

.select("Policy_ID","Prev_status","policy_status","status_update_date","No_of_day_in_status")

#write dim current table

policy_track_status_df.write \

.format("snowflake") \

.options(**sfOptions) \

.option("dbtable", "policy_track_status") \

.mode("overwrite") \

.save()

The transformed files are in snowflake as shown in below screenshots

Post-Processing Logic:

• After processing each day's data: ○ Files are deleted from the raw folder in Blob
Storage.
• Metadata/logs of processed files are stored in a log folder.
• Bronze-level files are moved to an archive folder for backup and auditing.
Logged in log file regarding file deletion from raw folder

File was moved to archive folder

Processing day-2 file:Day-2 file was processed and debug result as shown below

Day-2 data is appended in snowflake Policy_dim table

The below table has the previous status and no of days that Policy was in previous status

Conclusion

ㆍ End-to-end pipeline ensures clean, historical, and traceable policy data.

ㆍ Intelligent logging, archival, and deletion mechanisms ensure efficient storage management
and audit readiness.

ㆍ Gold layer delivers value-added insights into policy lifecycle stages, enabling strategic
decision-making.

PROJECT 9 For Python
No ratings yet
PROJECT 9 For Python
14 pages
Azure DE Interview Que
100% (2)
Azure DE Interview Que
25 pages
Snowflake Data Governance Guide
No ratings yet
Snowflake Data Governance Guide
35 pages
PROJECT 10 For Python
No ratings yet
PROJECT 10 For Python
16 pages
Cloud Data Lakes For Dummies Snowflake Special Edition V1 3
No ratings yet
Cloud Data Lakes For Dummies Snowflake Special Edition V1 3
10 pages
Understanding Records Retention Policy
No ratings yet
Understanding Records Retention Policy
28 pages
Health Insurance Data Analysis with PySpark
No ratings yet
Health Insurance Data Analysis with PySpark
9 pages
PROJECT 4 For Python
No ratings yet
PROJECT 4 For Python
26 pages
Snowflake Interview Questions and Answers
No ratings yet
Snowflake Interview Questions and Answers
5 pages
Sample DCDFGapAssessment Sanitized
No ratings yet
Sample DCDFGapAssessment Sanitized
58 pages
Snowflake Data Governance Tips 2024
No ratings yet
Snowflake Data Governance Tips 2024
13 pages
Snowflake Data Prep Best Practices
No ratings yet
Snowflake Data Prep Best Practices
8 pages
Data Archival Policy For In-House Developed Software at Psegs and DGRPG
No ratings yet
Data Archival Policy For In-House Developed Software at Psegs and DGRPG
3 pages
Infosys Data Engineering Questions and Answers - 2025
No ratings yet
Infosys Data Engineering Questions and Answers - 2025
25 pages
Data Pipeline Pharmarack
No ratings yet
Data Pipeline Pharmarack
3 pages
Solution Design Document - Policy Managementv0.9
No ratings yet
Solution Design Document - Policy Managementv0.9
20 pages
ADE Azure Data Engineer Interview
No ratings yet
ADE Azure Data Engineer Interview
12 pages
Interview
No ratings yet
Interview
2 pages
Self Introduction
No ratings yet
Self Introduction
3 pages
Automated Methods For Generating Least Privilege Access Control Policies - Principle of Least Privilege (PoLP)
No ratings yet
Automated Methods For Generating Least Privilege Access Control Policies - Principle of Least Privilege (PoLP)
117 pages
Dynamic Security Policy Negotiation
No ratings yet
Dynamic Security Policy Negotiation
7 pages
Ass 1
No ratings yet
Ass 1
31 pages
Standard Fund Workbook 23B06
No ratings yet
Standard Fund Workbook 23B06
262 pages
Snowflake Data Warehouse Guide
No ratings yet
Snowflake Data Warehouse Guide
8 pages
SOW - B2C Information Site Planning
No ratings yet
SOW - B2C Information Site Planning
5 pages
Dense Rank
No ratings yet
Dense Rank
2 pages
Snowflake Questions V2
No ratings yet
Snowflake Questions V2
6 pages
Azure de Project
No ratings yet
Azure de Project
29 pages
Pharma Script Pawan
No ratings yet
Pharma Script Pawan
19 pages
Autoloader S3 Toz ADLS
No ratings yet
Autoloader S3 Toz ADLS
8 pages
Snowflake Insights for Data Pros
No ratings yet
Snowflake Insights for Data Pros
14 pages
Snowflake & AWS Integration Guide
No ratings yet
Snowflake & AWS Integration Guide
7 pages
Journal 2 Manasa Rao
No ratings yet
Journal 2 Manasa Rao
3 pages
Policy Designer PDF
No ratings yet
Policy Designer PDF
264 pages
All Course Slides
100% (1)
All Course Slides
192 pages
All Snowflake Details Document
No ratings yet
All Snowflake Details Document
105 pages
Document 3: White Paper - "Lightweight Data Stewardship Framework For Mid-Sized Tech Firms"
No ratings yet
Document 3: White Paper - "Lightweight Data Stewardship Framework For Mid-Sized Tech Firms"
3 pages
Day 7
No ratings yet
Day 7
3 pages
Sprint 2 Unit Testing
No ratings yet
Sprint 2 Unit Testing
18 pages
Implementing Parameterization in ADF
No ratings yet
Implementing Parameterization in ADF
9 pages
End To End Project ADF
100% (1)
End To End Project ADF
73 pages
1 - Architecting For The Lakehouse
No ratings yet
1 - Architecting For The Lakehouse
115 pages
Snowflake Best Practices Guide
0% (1)
Snowflake Best Practices Guide
33 pages
Azure de QSN and Ans
No ratings yet
Azure de QSN and Ans
16 pages
Interview Series ADF Part-1
No ratings yet
Interview Series ADF Part-1
17 pages
Advanced Data Engineering With Databricks
No ratings yet
Advanced Data Engineering With Databricks
154 pages
Information Policies Q & A 2
No ratings yet
Information Policies Q & A 2
7 pages
7 - Data Warehousing & Data Modelling - DE - Feb25
No ratings yet
7 - Data Warehousing & Data Modelling - DE - Feb25
18 pages
Jubilee Azure Optimization Updated Project Timeline 1
No ratings yet
Jubilee Azure Optimization Updated Project Timeline 1
3 pages
Snowflake
No ratings yet
Snowflake
13 pages
Chapter4 Eyy
No ratings yet
Chapter4 Eyy
23 pages
Data Engineer Questions
No ratings yet
Data Engineer Questions
10 pages
DPC: Funds Tracking Software: Collector Office, Palghar
No ratings yet
DPC: Funds Tracking Software: Collector Office, Palghar
22 pages
Azure Data Factory Interview Questions Answers 1740678784
No ratings yet
Azure Data Factory Interview Questions Answers 1740678784
9 pages
PROJECT 8 For Python
No ratings yet
PROJECT 8 For Python
31 pages
PROJECT 11 For Python
No ratings yet
PROJECT 11 For Python
22 pages
PROJECT 3 For Python
No ratings yet
PROJECT 3 For Python
23 pages
PROJECT 1 For Python
No ratings yet
PROJECT 1 For Python
42 pages
Image Processing for Students
100% (1)
Image Processing for Students
92 pages
Thesis On Rapid Prototyping
100% (3)
Thesis On Rapid Prototyping
7 pages
Ghost Err
No ratings yet
Ghost Err
3 pages
Presentación
No ratings yet
Presentación
7 pages
Fraud Detection How Machine Learning Systems Help Reveal Scams in Fintech Healthcare and ECommerce
100% (2)
Fraud Detection How Machine Learning Systems Help Reveal Scams in Fintech Healthcare and ECommerce
24 pages
Max Trend Points (BigBeluga)
No ratings yet
Max Trend Points (BigBeluga)
2 pages
Digital Audio Watermarking Techniques and Technologies Applications and Benchmarks 1st Edition Nedeljko Cvejic Full
No ratings yet
Digital Audio Watermarking Techniques and Technologies Applications and Benchmarks 1st Edition Nedeljko Cvejic Full
115 pages
Applications of Artificial Intteligence in Mining: by Suresh Babu
No ratings yet
Applications of Artificial Intteligence in Mining: by Suresh Babu
16 pages
VXLAN Lab Guide
No ratings yet
VXLAN Lab Guide
8 pages
Impact of Social and Cyber Media
No ratings yet
Impact of Social and Cyber Media
4 pages
Configuration of Boost
No ratings yet
Configuration of Boost
42 pages
DRBD Users Guide
No ratings yet
DRBD Users Guide
170 pages
Free Bar Graph Maker 2
No ratings yet
Free Bar Graph Maker 2
1 page
CAN Protocol for KM-1024i Printhead
No ratings yet
CAN Protocol for KM-1024i Printhead
14 pages
Skype: The Whole World Can Talk For Free
No ratings yet
Skype: The Whole World Can Talk For Free
40 pages
Part 13
100% (1)
Part 13
30 pages
S 3H On Power Board
No ratings yet
S 3H On Power Board
7 pages
78 - Used Car Price Prediction Using Machine Learning
100% (1)
78 - Used Car Price Prediction Using Machine Learning
5 pages
RUT140 IGMP Proxy - Teltonika Networks Wiki
No ratings yet
RUT140 IGMP Proxy - Teltonika Networks Wiki
2 pages
TechRef StationController
No ratings yet
TechRef StationController
16 pages
Informatica Engleza PDF
No ratings yet
Informatica Engleza PDF
6 pages
Agile Ways of Working
No ratings yet
Agile Ways of Working
29 pages
Yajnaseni by Pratibha Ray Ebook Free 14 Hot
No ratings yet
Yajnaseni by Pratibha Ray Ebook Free 14 Hot
3 pages
Vocal Remover - MP3 Vocal Remover - Vocal Eliminator - Backing Trac
No ratings yet
Vocal Remover - MP3 Vocal Remover - Vocal Eliminator - Backing Trac
7 pages
A Brief Overview of Facial Recognition
No ratings yet
A Brief Overview of Facial Recognition
5 pages
Lesson Exemplar E7Q4W5
100% (3)
Lesson Exemplar E7Q4W5
9 pages
Manual Spirax Sarco Sx80
No ratings yet
Manual Spirax Sarco Sx80
106 pages
Solution Manual For Signals Systems and Inference by Oppenheim
No ratings yet
Solution Manual For Signals Systems and Inference by Oppenheim
97 pages
Resume Format
No ratings yet
Resume Format
6 pages
MBA 7003 Marketing Assignment 2
No ratings yet
MBA 7003 Marketing Assignment 2
12 pages

PROJECT 6 Python

Uploaded by

PROJECT 6 Python

Uploaded by

Policy Lifecycle Tracking Project | End-to-End

Azure Pipeline with Databricks & Snowflake

ㆍ Source: Daily policy data stored in a Blob Storage (Raw Folder).

ㆍ Destination: A Snowflake data warehouse, with intermediate transformations and data

The end-to-End pipeline with dynamic parameters

Pipeline debug result for day-1 file

1. Bronze Layer (Raw Ingestion)

2. Silver Layer (Cleansing & Standardization)

ㆍ Use Databricks to process Bronze layer data.

Silver transformation logic is

# Import the required functions and types

from [Link] import *

from [Link] import *

#Read policy file

policy_df = [Link]("csv").option("header", "true").option("inferSchema",

#join policy and region files

# Add audit information

df_silver = policy_validated_df.withColumn("ingesttime", current_timestamp())

# Write to silver table

The transformed file is in silver folder as shown below

3. Gold Layer (Business Transformations)

ㆍ Read Silver data into Databricks.

ㆍ Apply business logic to generate the Policy Dimension (policy_dim) table:

• Append daily data to maintain historical versions of policy records.

ㆍ Store policy_dim table into Snowflake as a dimensional table.

ㆍ Read policy_dim table from Snowflake.

ㆍ Store the output as policy_track_status table in Snowflake

Gold layer transformation logic is

# Import the required functions and types

from [Link] import *

from [Link] import *

from [Link] import Window

#read Policy file

#Access snowflake account

#write dim current table

#Lifecycle Status Tracking | get previous and next status

#write dim current table

The transformed files are in snowflake as shown in below screenshots

File was moved to archive folder

Day-2 data is appended in snowflake Policy_dim table

ㆍ End-to-end pipeline ensures clean, historical, and traceable policy data.

You might also like