0% found this document useful (0 votes)

5 views6 pages

Mo Spi Microdata SQL API Gateway - Architecture & MVP

Uploaded by

Tejas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views6 pages

Mo Spi Microdata SQL API Gateway - Architecture & MVP

Uploaded by

Tejas

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

MoSPI Microdata SQL API Gateway — Architecture

& MVP
1) What we’re building (problem → solution)
Problem. MoSPI’s microdata (PLFS, HCES, etc.) are exposed as full file downloads (CSV/Excel/SPSS/Stata).
Users must locally wrangle them; developers have no API; there’s no role-based access, rate limiting, or
unified schema. Each dataset differs structurally, blocking quick, reproducible analysis.

Solution. A secure API Gateway that:

• Lets users run parameterized SQL (or templated queries) against standardized, columnar, versioned
copies of the survey datasets.
• Returns results in JSON (and optional CSV/Parquet) with pagination, caching, and metadata.
• Enforces RBAC, quotas/rate limits, per-dataset access tiers, and comprehensive auditing.
• Ships with an explorable catalog + schema registry + query templates for common tabulations.

2) High-level architecture

┌─────────────────────────────────────────────────────────────────────────┐
│ Public / Partner Consumers │
│ - Web apps - Jupyter / R - ETL tools - BI - curl │
└───────────▲──────────────────────────────────────────────────────────────┘
│ HTTPS (JWT/OAuth2), API Keys, Rate Limit, mTLS (partners)
┌───────────┴─────────────────────────┐
│ API GATEWAY │
│ - AuthN / AuthZ (RBAC) │
│ - Quotas & Rate limiting │
│ - Request validation (OpenAPI) │
│ - Caching (hot queries) │
│ - Observability (metrics, traces) │
└───────────┬─────────────────────────┘
│ gRPC/HTTP
┌───────────┴──────────────────────────────────────────┐
│ QUERY SERVICE (FastAPI/Go) │
│ - SQL validation/sandboxing │
│ - Query rewrites (row/col filters) │
│ - Templated queries (safe) │
│ - Pagination/Streaming to JSON │
└───────────┬──────────────────────────────────────────┘
│ ANSI SQL → execution
┌───────────┴──────────────────────────────────────────┐

1
│ ANALYTIC ENGINE LAYER │
│ Option A: DuckDB (embedded) / MotherDuck │
│ Option B: Trino/Presto cluster (scale-out) │
│ Option C: ClickHouse (OLAP) │
│ - Reads Parquet in object storage │
│ - Pushdown filters/projections │
└───────────┬──────────────────────────────────────────┘
│ Parquet + metadata
┌───────────┴──────────────────────────────────────────┐
│ DATA LAKE (S3-compatible / on-prem) │
│ - Versioned Parquet (Delta/Iceberg optional) │
│ - Dataset versions + partitions (year/round/state) │
│ - Encryption at rest │
└───────────┬──────────────────────────────────────────┘
│ Ingestion/standardization
┌───────────┴──────────────────────────────────────────┐
│ INGESTION PIPELINE (Airflow/Dagster) │
│ - Read CSV/SPSS/Stata (pyreadstat/Arrow) │
│ - Normalize schema + codebooks to YAML │
│ - Encode categorical maps, nulls, types │
│ - Write partitioned Parquet + stats │
└──────────────────────────────────────────────────────┘

3) Data model & catalog

• Dataset: dataset_id , title , round , year , geography , access_tier (open/restricted/
confidential), license , source_url .
• Table: table_id , dataset_id , name , description , row_count , bytes , partitions .
• Column: column_id , table_id , name , type , nullable , labels (value mapping),
description .
• Versioning: dataset_version with semantic tags: vYYYY.RR (e.g., PLFS.v2023.R4 ).
• Codebooks: YAML/JSON describing labels (e.g., employment status codes) and missing-value
semantics.

The Schema Registry publishes a stable logical schema in the API even if the physical layout changes (e.g.,
new partitions, additional columns).

4) Access model (RBAC + data governance)

• Roles: public , registered , researcher , partner , admin .
• Scopes: datasets:read , queries:run , meta:read , admin:* .
• Binding: per dataset/table/column; e.g., researchers can query restricted columns after DUA
approval; public role sees suppressed columns or coarser geography.
• Row-level security: automatic predicates injected by the Query Service (e.g., drop districts for
public , allow only state-level for registered ).
• Column-level security: masking/redaction for quasi-identifiers.

2
• Query timeouts & limits: max rows, CPU seconds, memory; disallow CREATE/ALTER/DROP ; allow
only SELECT .

5) Rate limiting & quotas

• Per-API key and per-IP rate limits (token bucket), burst and sustained thresholds.
• Daily/monthly result-row quotas per tier.
• Cost controls with max partitions scanned and max result size.
• Cached results keyed by canonicalized SQL + version; TTL varies by dataset updates.

6) API design (REST with OpenAPI)

Base URL: /v1/

6.1 Auth

• POST /auth/token → OAuth2 password/authorization_code (first-party) or API key provisioning

(partners).

6.2 Catalog & discovery

• GET /datasets → list with filters ( survey=PLFS , year=2023 ).

• GET /datasets/{id} → metadata, versions, tables.
• GET /datasets/{id}/schema → normalized columns with labels.
• GET /tables/{id}/preview?limit=50 → sample rows.
• GET /columns/search?q=employment&dataset=PLFS → semantic search.

6.3 Query endpoints

• POST /sql/execute → body: { sql, params, format=json|csv|parquet, pagination:

{limit, cursor} } .
• POST /sql/template/{name}/run → vetted, parameterized templates (safe for public apps).
• GET /jobs/{id} → status & result URL (for long-running queries, if async mode enabled).

6.4 Responses

• JSON default envelope:

{
"request_id": "uuid",
"dataset_version": "PLFS.v2023.R4",
"stats": {"rows": 1234, "elapsed_ms": 210, "bytes_scanned": 945000},
"result": [{"state": "KA", "employment_rate": 0.51}, ...],
"next_cursor": null
}

3
7) Query engine choices
MVP: DuckDB embedded in the Query Service reading Parquet from object storage; excellent for columnar
scans, filter/projection pushdown, and returns Arrow/JSON fast. Concurrency can be horizontally scaled with
multiple stateless pods behind the Gateway.

Scale-out: Trino/Presto with S3 connector if concurrency or data size grows; or ClickHouse for heavy OLAP
aggregations and materialized views.

8) Ingestion & standardization

• Use pyreadstat and Apache Arrow to load SPSS/Stata into Arrow tables.
• Normalize types, harmonize categorical codes using codebooks.
• Partition by survey/year/round/state (or PSU/SS), write Parquet with statistics and ZSTD
compression.
• Maintain Delta Lake / Apache Iceberg table metadata for ACID versioning and time travel (optional
but recommended).
• Produce dataset manifests (YAML) consumed by the API for schema and labels.

9) Safety & privacy controls

• Release-only columns in public tiers; sensitive columns either masked or dropped.
• Small cell suppression for tabulations: automatic suppression when counts < k (configurable, e.g.,
k=10) and complementary suppression to prevent inference.
• Noise addition (optional) for public endpoints: calibrated Laplace for DP counts when required.
• Query syntax linter blocks re-identification patterns (e.g., too many group-by keys).

10) Observability & governance

• Audit log: who queried what, when, row/byte counts, result retention.
• Metrics: P95 latency, QPS, error rates, top queries, datasets hit.
• Tracing: distributed tracing across Gateway, Query Service, and storage.
• Catalog UI: simple web app for browsing datasets, trying queries, and saving templates.

11) Deployment
• Containerized services; deploy on Kubernetes (or VM auto-scaling).
• API Gateway: Kong/NGINX/Envoy; JWT verification plugin; rate limit plugin.
• Secrets: KMS/HSM backed; rotate keys; mTLS to storage.
• Backups: object storage versioning + immutable backups.

12) Sample OpenAPI (excerpt)

openapi: 3.0.3
info:

4
title: MoSPI Microdata SQL API
version: 1.0.0
servers:
- url: https://api.microdata.gov.in/v1
paths:
/sql/execute:
post:
security: [{ bearerAuth: [] }]
requestBody:
required: true
content:
application/json:
schema:
type: object
properties:
sql: { type: string }
params: { type: object, additionalProperties: true }
format: { type: string, enum: [json, csv, parquet], default:
json }
pagination:
type: object
properties:
limit: { type: integer, default: 1000, maximum: 10000 }
cursor: { type: string }
responses:
'200':
description: Query result
content:
application/json:
schema:
type: object
properties:
request_id: { type: string }
dataset_version: { type: string }
stats:
type: object
properties:
rows: { type: integer }
elapsed_ms: { type: integer }
bytes_scanned: { type: integer }
result:
type: array
items: { type: object }
next_cursor: { type: string, nullable: true }
securitySchemes:
bearerAuth:
type: http

5
scheme: bearer
bearerFormat: JWT

13) MVP server skeleton (Python / FastAPI + DuckDB)

The following illustrates the key control points; production code adds full validation, metrics,
and hardening.

from fastapi import FastAPI, HTTPException, Depends

from pydantic import BaseModel
import duckdb, json, time, uuid

app = FastAPI()

class Pagination(BaseModel):
limit: int = 1000
cursor: str | None = None

class SqlRequest(BaseModel):
sql: str
params: dict[str, object] | None = None
format: str = "json"
pagination: Pagination | None = None

def enforce_policies(sql: str, role: str) -> str:

s = sql.strip().lower()
if not s.startswith("select"):
raise HTTPException(400, "Only SELECT queries are allowed")
# Example: inject row-level predicate for public role
if role == "publi

19 Databricks
No ratings yet
19 Databricks
28 pages
Spark and Solr Integration Overview
No ratings yet
Spark and Solr Integration Overview
3 pages
Data Report Martin Inline Graphics R8 1
No ratings yet
Data Report Martin Inline Graphics R8 1
6 pages
Dataset Registry System
No ratings yet
Dataset Registry System
13 pages
Data Report Martin Inline Graphics R7 PDF
No ratings yet
Data Report Martin Inline Graphics R7 PDF
6 pages
Predicate Pushdown in Spark and Parquet
No ratings yet
Predicate Pushdown in Spark and Parquet
94 pages
M5 Q&a
No ratings yet
M5 Q&a
26 pages
Data Engineering Skills Guide
100% (1)
Data Engineering Skills Guide
5 pages
Data API
No ratings yet
Data API
11 pages
Hadoop Training in Bangalore
No ratings yet
Hadoop Training in Bangalore
38 pages
Top 10 Production-Grade Reusable PySpark Scripts For Data Engineers - by Mayurkumar Surani - May, 2025 - Medium
No ratings yet
Top 10 Production-Grade Reusable PySpark Scripts For Data Engineers - by Mayurkumar Surani - May, 2025 - Medium
14 pages
Peter Ansell Thesis
No ratings yet
Peter Ansell Thesis
221 pages
APIs for Data Scientists
No ratings yet
APIs for Data Scientists
74 pages
Karthiayinidva Notes
No ratings yet
Karthiayinidva Notes
29 pages
Overview of Big Data Tools and Models
No ratings yet
Overview of Big Data Tools and Models
38 pages
Comprehensive Data Engineer Guide
No ratings yet
Comprehensive Data Engineer Guide
6 pages
Nestle NL Dashbo
No ratings yet
Nestle NL Dashbo
7 pages
Cockroach Usecases and Syntax
No ratings yet
Cockroach Usecases and Syntax
4 pages
Azure Databricks
No ratings yet
Azure Databricks
5 pages
Hadoop
No ratings yet
Hadoop
4 pages
FastAPI RabbitMQ Monitoring Guide
No ratings yet
FastAPI RabbitMQ Monitoring Guide
25 pages
Hortonworks Data Platform (HDP)
100% (1)
Hortonworks Data Platform (HDP)
56 pages
Unit 5
No ratings yet
Unit 5
14 pages
HLD - Crowdsourced Civic Issue Reporting & Resolution System
100% (2)
HLD - Crowdsourced Civic Issue Reporting & Resolution System
6 pages
Comprehensive NoSQL Database List
No ratings yet
Comprehensive NoSQL Database List
18 pages
Building A Basic RestFul API in Python
No ratings yet
Building A Basic RestFul API in Python
6 pages
Apache Spark Ecosystem - Complete Spark Components Guide: 1. Objective
No ratings yet
Apache Spark Ecosystem - Complete Spark Components Guide: 1. Objective
11 pages
AABIS Presentation
No ratings yet
AABIS Presentation
19 pages
Design A Data Warehouse - Columnar DB Design
No ratings yet
Design A Data Warehouse - Columnar DB Design
3 pages
10-Big Data Nhom7
No ratings yet
10-Big Data Nhom7
81 pages
Understanding SecLookup in GCP
100% (5)
Understanding SecLookup in GCP
12 pages
Confluence Stuff
No ratings yet
Confluence Stuff
100 pages
Your Paragraph Text
No ratings yet
Your Paragraph Text
26 pages
DP 600 Day 1 en 1731207686301
No ratings yet
DP 600 Day 1 en 1731207686301
41 pages
Py Spark 3 Quick Reference Guide
No ratings yet
Py Spark 3 Quick Reference Guide
2 pages
Lecture 4 - Spark Introduction
No ratings yet
Lecture 4 - Spark Introduction
45 pages
Design A Workflow Management Platform Like Apache Airflo
No ratings yet
Design A Workflow Management Platform Like Apache Airflo
4 pages
Berkeley Data Analytics Stack
No ratings yet
Berkeley Data Analytics Stack
48 pages
NoSQL Database Models Explained
No ratings yet
NoSQL Database Models Explained
18 pages
Enhancing Information Retrieval Systems
No ratings yet
Enhancing Information Retrieval Systems
88 pages
Next Gens Schema
No ratings yet
Next Gens Schema
6 pages
Big Data & Hadoop Overview
No ratings yet
Big Data & Hadoop Overview
44 pages
Exam Overview: GCP Data Engineer
100% (1)
Exam Overview: GCP Data Engineer
12 pages
Berkeley Data Analytics Stack Overview
No ratings yet
Berkeley Data Analytics Stack Overview
28 pages
Berkeley Data Analytics Stack BDAS Overview Ion Stoica Strata 2013
No ratings yet
Berkeley Data Analytics Stack BDAS Overview Ion Stoica Strata 2013
28 pages
Building Effective Data Pipelines
No ratings yet
Building Effective Data Pipelines
16 pages
Lecture 10 - Interactive Querying
No ratings yet
Lecture 10 - Interactive Querying
27 pages
Spark: Prepared by Dulari Bhatt
No ratings yet
Spark: Prepared by Dulari Bhatt
19 pages
Big Data Architecture Guide
No ratings yet
Big Data Architecture Guide
41 pages
Yasir f29 Ass1 Bigdata
No ratings yet
Yasir f29 Ass1 Bigdata
7 pages
Advanced DevOps with Spark
0% (1)
Advanced DevOps with Spark
301 pages
Day 3-Vulnerability Scanner
No ratings yet
Day 3-Vulnerability Scanner
23 pages
Comparing NoSQL and NewSQL Systems
No ratings yet
Comparing NoSQL and NewSQL Systems
72 pages
Cubes Python Online Analytical Processing Framework
No ratings yet
Cubes Python Online Analytical Processing Framework
66 pages
Understanding Lambda Architecture in Big Data
No ratings yet
Understanding Lambda Architecture in Big Data
23 pages
Data Engineering for Professionals
No ratings yet
Data Engineering for Professionals
45 pages
Documentacio Cubes 1.0
No ratings yet
Documentacio Cubes 1.0
167 pages
JD - Software Developer (Quick Progress Track)
No ratings yet
JD - Software Developer (Quick Progress Track)
1 page
VAPT Exp11 Minor
No ratings yet
VAPT Exp11 Minor
3 pages
SmartMeet Review Finalllly
100% (1)
SmartMeet Review Finalllly
36 pages
October 2025
No ratings yet
October 2025
1 page
Week3be A
No ratings yet
Week3be A
1 page
Atharva Belkar - Adt23socb0257-Asssignment 1
No ratings yet
Atharva Belkar - Adt23socb0257-Asssignment 1
7 pages
Tejas Java Resume
No ratings yet
Tejas Java Resume
1 page
MIS Notes
No ratings yet
MIS Notes
9 pages
NLP - Notes
No ratings yet
NLP - Notes
17 pages
VR Notes
No ratings yet
VR Notes
15 pages
SET I-Question Paper - UT I
No ratings yet
SET I-Question Paper - UT I
1 page
SQL Database Queries: MS SQL Server Guide
No ratings yet
SQL Database Queries: MS SQL Server Guide
113 pages
Local Food Wastage Project Detailed Presentation
No ratings yet
Local Food Wastage Project Detailed Presentation
10 pages
Learn SQL - Manipulation Cheatsheet - Codecademy
No ratings yet
Learn SQL - Manipulation Cheatsheet - Codecademy
2 pages
Quiz 4 - 2
No ratings yet
Quiz 4 - 2
6 pages
Top Oracle Initialization Parameters
No ratings yet
Top Oracle Initialization Parameters
3 pages
WordPress Core File Structure Guide
No ratings yet
WordPress Core File Structure Guide
1 page
Experiment No 15
No ratings yet
Experiment No 15
4 pages
CT004 3 3 ADVBS Advance Database Systems Final Exam
No ratings yet
CT004 3 3 ADVBS Advance Database Systems Final Exam
3 pages
DBMS PBL 60
No ratings yet
DBMS PBL 60
22 pages
MySQL - MySQL 5.7 Reference Manual - 15.8
No ratings yet
MySQL - MySQL 5.7 Reference Manual - 15.8
3 pages
DBMS Unit I
No ratings yet
DBMS Unit I
15 pages
Apache Flink Getting Started
No ratings yet
Apache Flink Getting Started
4 pages
Anusha 5P4 Documentation
No ratings yet
Anusha 5P4 Documentation
63 pages
Nosql Practice Questions
No ratings yet
Nosql Practice Questions
2 pages
Hostel Management System ER Diagram
100% (1)
Hostel Management System ER Diagram
18 pages
Elmasri Navathe
No ratings yet
Elmasri Navathe
53 pages
SQL Server Foreign Keys Guide
No ratings yet
SQL Server Foreign Keys Guide
2 pages
Database User Roles and SQL Commands
No ratings yet
Database User Roles and SQL Commands
6 pages
PostgreSQL Up and Running A Practical Introduction To The Advanced Open Source Database Second Edition Regina O. Obe Instant Download
100% (2)
PostgreSQL Up and Running A Practical Introduction To The Advanced Open Source Database Second Edition Regina O. Obe Instant Download
52 pages
Oracle DBA Certification Training Course
No ratings yet
Oracle DBA Certification Training Course
9 pages
PostgreSQL Architecture 2
No ratings yet
PostgreSQL Architecture 2
5 pages
Solution Manual For Database Systems: The Complete Book, 2/E 2nd Edition Hector Garcia-Molina, Jeffrey D. Ullman, Jennifer Widom Online Version
100% (6)
Solution Manual For Database Systems: The Complete Book, 2/E 2nd Edition Hector Garcia-Molina, Jeffrey D. Ullman, Jennifer Widom Online Version
61 pages
6IMAN Final-Project Future-Billionaires
No ratings yet
6IMAN Final-Project Future-Billionaires
19 pages
DBS Oel
No ratings yet
DBS Oel
11 pages
Database Concepts for IGCSE Computer Science
No ratings yet
Database Concepts for IGCSE Computer Science
8 pages
Configuration de Send Mail Sqlserver
No ratings yet
Configuration de Send Mail Sqlserver
12 pages
SQL Queries for Customer and Product Data
No ratings yet
SQL Queries for Customer and Product Data
5 pages
BDA Module 3 Notes
No ratings yet
BDA Module 3 Notes
52 pages
Parent To Child Trigger
No ratings yet
Parent To Child Trigger
3 pages
SQL For Data Analytics - Syllabus
0% (1)
SQL For Data Analytics - Syllabus
2 pages

Mo Spi Microdata SQL API Gateway - Architecture & MVP

Uploaded by

Mo Spi Microdata SQL API Gateway - Architecture & MVP

Uploaded by

MoSPI Microdata SQL API Gateway — Architecture

Solution. A secure API Gateway that:

3) Data model & catalog

4) Access model (RBAC + data governance)

5) Rate limiting & quotas

6) API design (REST with OpenAPI)

• POST /auth/token → OAuth2 password/authorization_code (first-party) or API key provisioning

6.2 Catalog & discovery

• GET /datasets → list with filters ( survey=PLFS , year=2023 ).

6.3 Query endpoints

• POST /sql/execute → body: { sql, params, format=json|csv|parquet, pagination:

• JSON default envelope:

8) Ingestion & standardization

9) Safety & privacy controls

10) Observability & governance

12) Sample OpenAPI (excerpt)

13) MVP server skeleton (Python / FastAPI + DuckDB)

from fastapi import FastAPI, HTTPException, Depends

def enforce_policies(sql: str, role: str) -> str:

You might also like