Spark Code

The document contains PySpark code for processing a CSV file. It first filters rows based on a condition and then transforms the DataFrame by exploding its columns into separate rows, generating hash values for the column values, and formatting the output. The code demonstrates basic data manipulation techniques using Spark DataFrames.

Uploaded by

Rahul Waldia

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views1 page

Spark Code

Uploaded by

Rahul Waldia

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

from pyspark.

sql import SparkSession

# Create a SparkSession
spark = SparkSession.builder.appName("LabExam").getOrCreate()

# Read the CSV file into a DataFrame

df = spark.read.csv("data.csv", header=True)

# Filter rows where no_of_files is greater than 100

filtered_df = df.filter(df["no_of_files"] > 100)

# Show the filtered results

filtered_df.show()

................

from pyspark.sql import SparkSession, functions as F

# Create a SparkSession
spark = SparkSession.builder.appName("LabExam").getOrCreate()

# Read the CSV file into a DataFrame

df = spark.read.csv("data.csv", header=True)

# Convert all values in columns to separate rows

exploded_df = df.select(F.explode(F.array(*df.columns)).alias("column_value"))

# Generate hash of the airlines column

hashed_df = exploded_df.withColumn("hash_value", F.hash(F.col("column_value")))

# Format the output as required

formatted_df = hashed_df.select(F.concat(F.col("hash_value"), F.lit(", "),
F.col("column_value")).alias("output"))

# Show the formatted results

formatted_df.show()

Practical File Class Xii
No ratings yet
Practical File Class Xii
25 pages
12 IP File Programs 6 To 17
No ratings yet
12 IP File Programs 6 To 17
9 pages
List of Practical Ip065 Xii Session 2025 CKC Academy
No ratings yet
List of Practical Ip065 Xii Session 2025 CKC Academy
19 pages
List of Practical Ip065 Xii Session 2025 CKC Academy
No ratings yet
List of Practical Ip065 Xii Session 2025 CKC Academy
19 pages
Ssce-2025 Practical Test Solution
No ratings yet
Ssce-2025 Practical Test Solution
7 pages
Python and SQL Data Analysis Guide
No ratings yet
Python and SQL Data Analysis Guide
8 pages
Pandas Data Handling Exercises
No ratings yet
Pandas Data Handling Exercises
21 pages
Pandas PQ
No ratings yet
Pandas PQ
2 pages
Ip Practical File
No ratings yet
Ip Practical File
20 pages
Project 4
No ratings yet
Project 4
8 pages
Class 12 Pandas Practical Guide
No ratings yet
Class 12 Pandas Practical Guide
15 pages
Aiclass
No ratings yet
Aiclass
9 pages
Adobe Scan 25 Nov 2023
No ratings yet
Adobe Scan 25 Nov 2023
17 pages
IP Project File Work On Python and CSV Files No Anno
No ratings yet
IP Project File Work On Python and CSV Files No Anno
45 pages
DSBDA Assignment 2
No ratings yet
DSBDA Assignment 2
7 pages
List of Programs For Informatics
No ratings yet
List of Programs For Informatics
43 pages
First 4
No ratings yet
First 4
11 pages
SOURCE CODE (QR CODE) Project
No ratings yet
SOURCE CODE (QR CODE) Project
15 pages
List of Programs For Informatics 24-25 - 1575540280755490817SD - PDF
No ratings yet
List of Programs For Informatics 24-25 - 1575540280755490817SD - PDF
11 pages
StudentMgmStystme ProjectFinal
100% (1)
StudentMgmStystme ProjectFinal
23 pages
Practical File IP
No ratings yet
Practical File IP
27 pages
Lab Record IP
No ratings yet
Lab Record IP
13 pages
Data Science Practical 01
No ratings yet
Data Science Practical 01
12 pages
Lab Session 06: Perform Following Operations Using Pandas Lab Session 06: Perform Following Operations Using Pandas
No ratings yet
Lab Session 06: Perform Following Operations Using Pandas Lab Session 06: Perform Following Operations Using Pandas
5 pages
Python and SQL Code Exercises
No ratings yet
Python and SQL Code Exercises
10 pages
12 IP Practial Programs 2025-26
No ratings yet
12 IP Practial Programs 2025-26
10 pages
Student Marks Register System
No ratings yet
Student Marks Register System
27 pages
IP - PRACTICAL EXAM - Revision
No ratings yet
IP - PRACTICAL EXAM - Revision
24 pages
DataFrame Creation
No ratings yet
DataFrame Creation
5 pages
Ip Project
No ratings yet
Ip Project
11 pages
Informatics Practices Project (1) Manan
No ratings yet
Informatics Practices Project (1) Manan
21 pages
Python Data Handling with Pandas
No ratings yet
Python Data Handling with Pandas
12 pages
DSBDL Pract 2
No ratings yet
DSBDL Pract 2
6 pages
Student Marks CSV File Management
No ratings yet
Student Marks CSV File Management
8 pages
Informatics Practices Practical List22-2323
No ratings yet
Informatics Practices Practical List22-2323
6 pages
Project Work Info
No ratings yet
Project Work Info
20 pages
CSV Analysis for Students
No ratings yet
CSV Analysis for Students
11 pages
List of Programs For Informatics - XII - IP
No ratings yet
List of Programs For Informatics - XII - IP
26 pages
IP12 Gargi
No ratings yet
IP12 Gargi
32 pages
Pandas More
No ratings yet
Pandas More
8 pages
File Ip
No ratings yet
File Ip
22 pages
Practical Questions
No ratings yet
Practical Questions
1 page
DHP Journal
No ratings yet
DHP Journal
29 pages
Informatics Practices Record Class 12
No ratings yet
Informatics Practices Record Class 12
60 pages
Code Snippets
No ratings yet
Code Snippets
7 pages
Dataframe in Pandas
No ratings yet
Dataframe in Pandas
23 pages
PySpark DataFrame Column Operations
No ratings yet
PySpark DataFrame Column Operations
5 pages
Class12 IP Practical File With Outputs
No ratings yet
Class12 IP Practical File With Outputs
8 pages
Grade 12 - IP Practicals (1 To 9)
No ratings yet
Grade 12 - IP Practicals (1 To 9)
12 pages
Student Management System
No ratings yet
Student Management System
9 pages
HHHH
No ratings yet
HHHH
22 pages
Screenshot 2023-12-27 at 7.05.37 PM
No ratings yet
Screenshot 2023-12-27 at 7.05.37 PM
23 pages
PDF&Rendition 1
No ratings yet
PDF&Rendition 1
47 pages
Ans Key Set A
No ratings yet
Ans Key Set A
6 pages
DataFrame Operations and Visualizations
No ratings yet
DataFrame Operations and Visualizations
2 pages
Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
6 pages

Spark Code

Uploaded by

Spark Code

Uploaded by

from pyspark.

sql import SparkSession

# Read the CSV file into a DataFrame

# Filter rows where no_of_files is greater than 100

# Show the filtered results

from pyspark.sql import SparkSession, functions as F

# Read the CSV file into a DataFrame

# Convert all values in columns to separate rows

# Generate hash of the airlines column

# Format the output as required

# Show the formatted results

You might also like