PySpark SQL Assessment

Uploaded by

kalirew812

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

39 views4 pages

PySpark SQL Assessment

Uploaded by

kalirew812

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

PySpark Questions:

1. Remove the columns CANCELLATION_REASON and DIVERTED from a

Spark DataFrame.

flight_df = flight_df.drop("CANCELLATION_REASON", "DIVERTED")

flight_df.show()

2. Read the dataset into a PySpark DataFrame and filter flights that
have DEPARTURE_DELAY greater than 20 minutes and are flying to
LAX. Show the count.

flight_df = [Link]("FlightsDataset(in).csv", header=True,

inferSchema=True)
flight_df.show()
from [Link] import *

filtered_flight_df = flight_df.filter((col("DEPARTURE_DELAY") > 20) &

(col("DESTINATION_AIRPORT") == "LAX")).count()

print(filtered_flight_df)

3. Write a SQL query to find the total number of flights for each airline
and display it in descending order.

%%sparksql
select AIRLINE, count(AIRLINE) as total_flights from flight_table
group by AIRLINE order by total_flights desc;
MySQL Questions:

4. Create a view named on_time_flights that includes only flights that

had no departure or arrival delays.

[Link]("create view on_time_flights as select * from flight_table

where DEPARTURE_DELAY < 0 and ARRIVAL_DELAY < 0")

5. Use a CTE to calculate the average delay time per airport, then
retrieve airports with an average delay greater than 20 minutes.

%%sparksql
with delay_per_airport as (select ORIGIN_AIRPORT,
avg(DEPARTURE_DELAY) as avg_delay from flight_table group by
ORIGIN_AIRPORT)
select * from delay_per_airport where avg_delay > 20;
6. Write a SQL query to find the top 5 flights with the highest
DEPARTURE_DELAY.

%%sparksql
select AIRLINE, max(DEPARTURE_DELAY) as max_delay from
flight_table group by AIRLINE order by max_delay desc LIMIT 5;

Ormulate The Data Science Problem
No ratings yet
Ormulate The Data Science Problem
5 pages
SA Coding Assessment
No ratings yet
SA Coding Assessment
13 pages
Assignment1 Code and Conclude DSA Nikhil Mishra
No ratings yet
Assignment1 Code and Conclude DSA Nikhil Mishra
36 pages
Flight Management System
No ratings yet
Flight Management System
18 pages
IE451 Homework 1 Solutions Overview
No ratings yet
IE451 Homework 1 Solutions Overview
24 pages
EDA On Flight Price
No ratings yet
EDA On Flight Price
17 pages
Learning Spark - Chapter 4
No ratings yet
Learning Spark - Chapter 4
30 pages
Flight Management System Project
No ratings yet
Flight Management System Project
18 pages
Data Presentation Final
No ratings yet
Data Presentation Final
14 pages
BDA All 37 Practical Answers
No ratings yet
BDA All 37 Practical Answers
3 pages
Assignment2 Problem
No ratings yet
Assignment2 Problem
4 pages
Exercises 01
No ratings yet
Exercises 01
2 pages
Tutorial 9
No ratings yet
Tutorial 9
1 page
PySpark DataFrame Operations Guide
No ratings yet
PySpark DataFrame Operations Guide
2 pages
Tableau Worksheet 1C DOT Ontime 2025
No ratings yet
Tableau Worksheet 1C DOT Ontime 2025
6 pages
Flight Management System Query With Answer
100% (2)
Flight Management System Query With Answer
3 pages
Main Summary
No ratings yet
Main Summary
19 pages
EX - NO: Date: Explore Flight Delay Data Analyzing Factors Contributing To Flight Delays
No ratings yet
EX - NO: Date: Explore Flight Delay Data Analyzing Factors Contributing To Flight Delays
4 pages
Import As
No ratings yet
Import As
2 pages
Regular Expressions for Data Filtering
No ratings yet
Regular Expressions for Data Filtering
2 pages
NYC Flights Data Analysis Lab
No ratings yet
NYC Flights Data Analysis Lab
9 pages
Boston Flight Delays Analysis
No ratings yet
Boston Flight Delays Analysis
34 pages
Pyspark Interview Questions
No ratings yet
Pyspark Interview Questions
4 pages
Exp8 PDF
No ratings yet
Exp8 PDF
6 pages
Uber Dataset Analysis in Python
No ratings yet
Uber Dataset Analysis in Python
9 pages
Flight Management System Project
No ratings yet
Flight Management System Project
32 pages
Cs Report
No ratings yet
Cs Report
38 pages
Chapter 3
No ratings yet
Chapter 3
47 pages
Med at Olana Menu Pricing Analysis
No ratings yet
Med at Olana Menu Pricing Analysis
28 pages
SQL Analysis for Airport Rail Link
100% (1)
SQL Analysis for Airport Rail Link
2 pages
Project File Class 12
No ratings yet
Project File Class 12
23 pages
Mongodb Lab: Reason For Delay)
No ratings yet
Mongodb Lab: Reason For Delay)
41 pages
Flight Management System - CS Project
No ratings yet
Flight Management System - CS Project
35 pages
SQL Assingnment 2
No ratings yet
SQL Assingnment 2
8 pages
Spark Data Processing Guide
No ratings yet
Spark Data Processing Guide
10 pages
Data Cleaning Techniques in Python
No ratings yet
Data Cleaning Techniques in Python
12 pages
Day11 Notes
No ratings yet
Day11 Notes
2 pages
Supervised Regression
No ratings yet
Supervised Regression
24 pages
Step 16 Chapter4
No ratings yet
Step 16 Chapter4
64 pages
Student Airport Management Project
No ratings yet
Student Airport Management Project
71 pages
File Ip
No ratings yet
File Ip
22 pages
Lab 06
No ratings yet
Lab 06
2 pages
Flight Booking System Report
No ratings yet
Flight Booking System Report
33 pages
Spark Code
No ratings yet
Spark Code
1 page
Flight Price Prediction Guide
No ratings yet
Flight Price Prediction Guide
28 pages
CS Flytx Project 2024-25 Cbse
No ratings yet
CS Flytx Project 2024-25 Cbse
15 pages
Using Spark to Read CSV Data
No ratings yet
Using Spark to Read CSV Data
5 pages
Tidyverse AssigmentMishalM
No ratings yet
Tidyverse AssigmentMishalM
2 pages
Spark Lab: Analyzing Historical Weather Data
No ratings yet
Spark Lab: Analyzing Historical Weather Data
3 pages
Airline Reservation System Design
No ratings yet
Airline Reservation System Design
8 pages
Text 3
No ratings yet
Text 3
3 pages
Sparklyr Online Training Overview
No ratings yet
Sparklyr Online Training Overview
63 pages
Day 73
No ratings yet
Day 73
12 pages
Exp8 Ros Final
No ratings yet
Exp8 Ros Final
6 pages
Flight Management
No ratings yet
Flight Management
3 pages
Nalin Project Final
No ratings yet
Nalin Project Final
14 pages
ML Practical 1
No ratings yet
ML Practical 1
15 pages
DataFrame and SQL Operations Guide
No ratings yet
DataFrame and SQL Operations Guide
10 pages

PySpark SQL Assessment

Uploaded by

PySpark SQL Assessment

Uploaded by

PySpark Questions:

1. Remove the columns CANCELLATION_REASON and DIVERTED from a

flight_df = flight_df.drop("CANCELLATION_REASON", "DIVERTED")

flight_df = [Link]("FlightsDataset(in).csv", header=True,

filtered_flight_df = flight_df.filter((col("DEPARTURE_DELAY") > 20) &

4. Create a view named on_time_flights that includes only flights that

[Link]("create view on_time_flights as select * from flight_table

You might also like