0% found this document useful (0 votes)

32 views5 pages

Unit V SQL

The document provides an overview of descriptive statistics using Apache Spark, detailing methods to compute basic statistics such as mean, median, variance, and percentiles using both the DataFrame API and Spark SQL. It includes examples of initializing a Spark session, creating DataFrames, and using functions like describe() and approxQuantile() for statistical analysis. The conclusion emphasizes the ease of computing descriptive statistics in Spark and the ability to gain deeper insights through grouping and aggregation.

Uploaded by

ldoddi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views5 pages

Unit V SQL

Uploaded by

ldoddi

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Unit V - Descriptive statistics

Contents
Descriptive Statistics with Spark: Examples ............................................................................................ 1
2. Basic Descriptive Statistics ............................................................................................................. 1
3. Using describe() for Summary Statistics ................................................................................ 2
4. Additional Descriptive Statistics .................................................................................................... 2
8. Conclusion ....................................................................................................................................... 4

Descriptive Statistics with Spark: Examples

Descriptive statistics provides a summary of the data and includes measures like mean, median,
variance, standard deviation, min, max, and count. In Apache Spark, you can perform
descriptive statistics using the DataFrame API or Spark SQL.

1. Using Spark DataFrame API for Descriptive Statistics

First, you need to initialize the SparkSession and create a DataFrame.

from pyspark.sql import SparkSession

# Initialize Spark session

spark = SparkSession.builder.appName("Descriptive Statistics").getOrCreate()

# Sample data
data = [("Alice", 29), ("Bob", 31), ("Charlie", 35), ("David", 25), ("Eve",
29)]
columns = ["Name", "Age"]

# Create a DataFrame
df = spark.createDataFrame(data, columns)

# Show the DataFrame

df.show()

2. Basic Descriptive Statistics

Spark provides built-in functions to compute basic statistics like mean, min, max, count,
stddev, and variance.

# Import functions
from pyspark.sql.functions import col, mean, min, max, stddev, variance

# Calculate basic statistics for "Age"

df.select(
mean("Age").alias("mean_age"),
min("Age").alias("min_age"),
max("Age").alias("max_age"),
stddev("Age").alias("stddev_age"),
variance("Age").alias("variance_age")
).show()

3. Using describe() for Summary Statistics

The describe() function is the easiest way to generate a summary of the numeric columns in a
DataFrame. It calculates count, mean, stddev, min, max, and the 25th, 50th, and 75th
percentiles.

# Generate descriptive statistics using describe()

df.describe().show()

Output:

+-------+-----+------------------+
|summary| Name| Age|
+-------+-----+------------------+
| count| 5| 5|
| mean| null| 29.8|
| stddev| null| 3.70809909036451|
| min|Alice| 25|
| max| Eve| 35|
+-------+-----+------------------+

4. Additional Descriptive Statistics

A. Percentiles (Quantiles)

You can calculate specific percentiles using approxQuantile(). It calculates the approximate
value of a given percentile based on the sample data.

# Calculate approximate percentiles (25th, 50th, 75th percentiles)

quantiles = df.approxQuantile("Age", [0.25, 0.5, 0.75], 0.0)
print(f"25th percentile: {quantiles[0]}")
print(f"50th percentile (median): {quantiles[1]}")
print(f"75th percentile: {quantiles[2]}")

B. Mode (Most Frequent Value)

Spark doesn't have a direct function to compute mode, but you can compute it by using
groupBy() and count().

# Calculate the mode (most frequent value in the "Age" column)

mode_df = df.groupBy("Age").count().orderBy("count",
ascending=False).limit(1)
mode_df.show()

5. Descriptive Statistics Using Spark SQL

You can also run SQL queries for descriptive statistics.

First, register the DataFrame as a temporary SQL table:

# Register DataFrame as a SQL table

df.createOrReplaceTempView("people")

A. SQL Example for Descriptive Stats

Now, run SQL queries for descriptive statistics.

# Run SQL queries for basic descriptive statistics

spark.sql("""
SELECT
AVG(Age) AS mean_age,
MIN(Age) AS min_age,
MAX(Age) AS max_age,
STDDEV(Age) AS stddev_age,
VARIANCE(Age) AS variance_age
FROM people
""").show()

B. SQL Example for Percentiles

You can also use SQL with a window function to calculate percentiles.

# Calculate the 25th, 50th, and 75th percentiles

spark.sql("""
SELECT
PERCENTILE(Age, 0.25) AS Q1,
PERCENTILE(Age, 0.5) AS Median,
PERCENTILE(Age, 0.75) AS Q3
FROM people
""").show()

6. Additional Insights Using Aggregations

You can also combine grouping and aggregating functions for more detailed statistics.

A. Grouped Descriptive Statistics

# Example: Group data by Age and count occurrences

df.groupBy("Age").count().show()
# Example: Group data by Age and compute mean, max, and min of another column
(if available)
# Assuming we have more columns like "Salary"
# df.groupBy("Age").agg(mean("Salary"), max("Salary"), min("Salary")).show()

7. Example: Descriptive Statistics with a Larger Dataset

Let's simulate a larger dataset for a more practical example:

# Simulated data with more rows

data = [
("Alice", 29, 3500),
("Bob", 31, 4200),
("Charlie", 35, 5500),
("David", 25, 3000),
("Eve", 29, 3800),
("Frank", 32, 4500),
("Grace", 28, 3900),
("Hannah", 33, 4600)
]
columns = ["Name", "Age", "Salary"]

# Create a DataFrame
df = spark.createDataFrame(data, columns)

# Show the DataFrame

df.show()

# Generate summary statistics using describe

df.describe().show()

# Calculate additional statistics for Age and Salary

df.select(
mean("Age").alias("mean_age"),
min("Age").alias("min_age"),
max("Age").alias("max_age"),
stddev("Age").alias("stddev_age"),
mean("Salary").alias("mean_salary"),
min("Salary").alias("min_salary"),
max("Salary").alias("max_salary")
).show()

8. Conclusion

 Descriptive statistics in Spark are very easy to compute using both the DataFrame API
and Spark SQL.
 Functions like describe(), avg(), min(), max(), stddev(), and variance() provide
quick insights into the dataset.
 Percentiles and mode can also be calculated, though some require additional functions.
 Using groupBy and agg allows for deeper, grouped insights into the data.

Pandas
No ratings yet
Pandas
7 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
21 pages
Introduction to Apache Spark Datasets
No ratings yet
Introduction to Apache Spark Datasets
3 pages
DataFrame Basics in Data Analytics
No ratings yet
DataFrame Basics in Data Analytics
9 pages
Unit 5 Descriptive Statistics
No ratings yet
Unit 5 Descriptive Statistics
7 pages
Descriptive Stats in Pandas DataFrame
No ratings yet
Descriptive Stats in Pandas DataFrame
17 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
DataFrame Functions in Pandas
No ratings yet
DataFrame Functions in Pandas
12 pages
EDA Lab Manual
No ratings yet
EDA Lab Manual
93 pages
EDA Lab Manual
100% (2)
EDA Lab Manual
93 pages
Introduction to Pandas DataFrames
No ratings yet
Introduction to Pandas DataFrames
25 pages
Mod5 Bda
No ratings yet
Mod5 Bda
9 pages
Python Pandas DataFrame Operations
No ratings yet
Python Pandas DataFrame Operations
18 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
07 Structured Data Processing
No ratings yet
07 Structured Data Processing
91 pages
PySpark Interview Cheatsheet 1741068112
No ratings yet
PySpark Interview Cheatsheet 1741068112
19 pages
PySpark DataFrames Guide
No ratings yet
PySpark DataFrames Guide
33 pages
Python Pandas II Notes XII
No ratings yet
Python Pandas II Notes XII
20 pages
Pandas Notes
No ratings yet
Pandas Notes
27 pages
Practical 1 DSV
No ratings yet
Practical 1 DSV
4 pages
4 PythonPandas
No ratings yet
4 PythonPandas
8 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Big Data Analytics with Spark DataFrames
No ratings yet
Big Data Analytics with Spark DataFrames
79 pages
Pyspark - DataFrame Window Functions
No ratings yet
Pyspark - DataFrame Window Functions
3 pages
Chapter Notes - Data Handling Using Pandas DataFrame
No ratings yet
Chapter Notes - Data Handling Using Pandas DataFrame
16 pages
Class 12 Notes on Pandas II
No ratings yet
Class 12 Notes on Pandas II
8 pages
PySpark Cheatsheet - Elaborate
No ratings yet
PySpark Cheatsheet - Elaborate
14 pages
Pyspark Cheatsheet
No ratings yet
Pyspark Cheatsheet
10 pages
More On Pandas
No ratings yet
More On Pandas
51 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
11 pages
Python Libraries for Statistical Analysis
No ratings yet
Python Libraries for Statistical Analysis
40 pages
HTML Code
No ratings yet
HTML Code
3 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Chapter1.2 PythonPandas2
No ratings yet
Chapter1.2 PythonPandas2
38 pages
Datasets and Dataframes: Org - Apache.Spark - Sql.Sparksession
No ratings yet
Datasets and Dataframes: Org - Apache.Spark - Sql.Sparksession
17 pages
Apache Spark - DataFrames and Spark SQL
100% (2)
Apache Spark - DataFrames and Spark SQL
146 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Solutions 1742312993
No ratings yet
Solutions 1742312993
14 pages
Pyspark Coding Interview Questions
No ratings yet
Pyspark Coding Interview Questions
19 pages
Python Data Analysis Tutorial
No ratings yet
Python Data Analysis Tutorial
47 pages
Basic DataFrame Operation
No ratings yet
Basic DataFrame Operation
11 pages
Unit 4 Spark SQL
No ratings yet
Unit 4 Spark SQL
49 pages
Pandas Data Handling & Visualization Guide
100% (1)
Pandas Data Handling & Visualization Guide
37 pages
Methods & Function in Databricks
No ratings yet
Methods & Function in Databricks
34 pages
DataFrame Statistics
No ratings yet
DataFrame Statistics
41 pages
PySpark Data Frame Questions PDF
100% (2)
PySpark Data Frame Questions PDF
57 pages
Python Data Science Guide
100% (2)
Python Data Science Guide
47 pages
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
Basic Knowledge
No ratings yet
Basic Knowledge
4 pages
Human Resource Management Systems Extra
No ratings yet
Human Resource Management Systems Extra
5 pages
What Is Keka and Its Info
100% (1)
What Is Keka and Its Info
15 pages
Ib Project Final
No ratings yet
Ib Project Final
8 pages
Unit 1-Introduction To BDA
No ratings yet
Unit 1-Introduction To BDA
24 pages
Homestay Marketplace Business Plan
No ratings yet
Homestay Marketplace Business Plan
24 pages
Unit 3 Mapreduce
No ratings yet
Unit 3 Mapreduce
14 pages
Unit 2 - Linux & Hadoop
No ratings yet
Unit 2 - Linux & Hadoop
14 pages
Unit IV Spark
No ratings yet
Unit IV Spark
23 pages
Spark Cluster Setup Guide
No ratings yet
Spark Cluster Setup Guide
12 pages
Ajila Adatadrivenpriorityschedulingtechniquefor
No ratings yet
Ajila Adatadrivenpriorityschedulingtechniquefor
120 pages
Spark SQL Optimization
No ratings yet
Spark SQL Optimization
29 pages
Cloudera Developer Training For Apache Spark: Hands-On Exercises
No ratings yet
Cloudera Developer Training For Apache Spark: Hands-On Exercises
61 pages
PracticeExam DataEngineerAssociate
100% (1)
PracticeExam DataEngineerAssociate
23 pages
Apache Kafka Course Curriculum Overview
No ratings yet
Apache Kafka Course Curriculum Overview
5 pages
Big - Data PPT Unit 4
No ratings yet
Big - Data PPT Unit 4
233 pages
IT Professional with 10+ Years Experience
No ratings yet
IT Professional with 10+ Years Experience
8 pages
Chapter 6 Spark and Flink Questions Answers
No ratings yet
Chapter 6 Spark and Flink Questions Answers
5 pages
The Design of Cross-Border E-Commerce Recommendation System Based On Big Data Technology
No ratings yet
The Design of Cross-Border E-Commerce Recommendation System Based On Big Data Technology
4 pages
Troubleshooting Spark Challenges
No ratings yet
Troubleshooting Spark Challenges
7 pages
Databricks Certified Professional Data Engineer Jun 2024
No ratings yet
Databricks Certified Professional Data Engineer Jun 2024
21 pages
Databricks DBX CLI - Deploy The Spark JAR Using YAML - by Ganesh Chandrasekaran - Medium
No ratings yet
Databricks DBX CLI - Deploy The Spark JAR Using YAML - by Ganesh Chandrasekaran - Medium
7 pages
Learn Well Technocraft: Hadoop/Big Data Syllabus
100% (1)
Learn Well Technocraft: Hadoop/Big Data Syllabus
12 pages
AIFL Industry Session - Building AI Teams (Shashi Bhushan)
No ratings yet
AIFL Industry Session - Building AI Teams (Shashi Bhushan)
30 pages
23CP309T BDA MSE Question Paper
No ratings yet
23CP309T BDA MSE Question Paper
2 pages
Purvi Agrawal
No ratings yet
Purvi Agrawal
1 page
Day 17 Joins Part 2
No ratings yet
Day 17 Joins Part 2
4 pages
ManishPakala SrDataEngg
No ratings yet
ManishPakala SrDataEngg
6 pages
Hadoop Single Node Cluster Setup Guide
No ratings yet
Hadoop Single Node Cluster Setup Guide
61 pages
Big Data Engineering PDF
No ratings yet
Big Data Engineering PDF
17 pages
Srikanth Gottimukkula Professional Summary
No ratings yet
Srikanth Gottimukkula Professional Summary
3 pages
Venkat Preetham
No ratings yet
Venkat Preetham
3 pages
Spark Training - Java
No ratings yet
Spark Training - Java
8 pages
Data Science Career Boost
No ratings yet
Data Science Career Boost
46 pages
Hadoop Developer Resume SEO Guide
No ratings yet
Hadoop Developer Resume SEO Guide
2 pages
Prasanth Vemula - AI ML Engineer Big Data New
No ratings yet
Prasanth Vemula - AI ML Engineer Big Data New
4 pages
Build A Modern, Unified Analytics Data Platform With Google Cloud - Whitepaper August 2021
No ratings yet
Build A Modern, Unified Analytics Data Platform With Google Cloud - Whitepaper August 2021
18 pages
Data Science Professional - 1z0-1110-23 - 55QA
100% (1)
Data Science Professional - 1z0-1110-23 - 55QA
12 pages
Sakshi - Specialised - CV - Pes319 Updated Now
No ratings yet
Sakshi - Specialised - CV - Pes319 Updated Now
2 pages

Unit V SQL

Uploaded by

Unit V SQL

Uploaded by

Unit V - Descriptive statistics

Descriptive Statistics with Spark: Examples

1. Using Spark DataFrame API for Descriptive Statistics

First, you need to initialize the SparkSession and create a DataFrame.

from pyspark.sql import SparkSession

# Initialize Spark session

# Show the DataFrame

2. Basic Descriptive Statistics

# Calculate basic statistics for "Age"

3. Using describe() for Summary Statistics

# Generate descriptive statistics using describe()

4. Additional Descriptive Statistics

# Calculate approximate percentiles (25th, 50th, 75th percentiles)

B. Mode (Most Frequent Value)

# Calculate the mode (most frequent value in the "Age" column)

5. Descriptive Statistics Using Spark SQL

You can also run SQL queries for descriptive statistics.

First, register the DataFrame as a temporary SQL table:

# Register DataFrame as a SQL table

A. SQL Example for Descriptive Stats

Now, run SQL queries for descriptive statistics.

# Run SQL queries for basic descriptive statistics

B. SQL Example for Percentiles

# Calculate the 25th, 50th, and 75th percentiles

6. Additional Insights Using Aggregations

A. Grouped Descriptive Statistics

# Example: Group data by Age and count occurrences

7. Example: Descriptive Statistics with a Larger Dataset

Let's simulate a larger dataset for a more practical example:

# Simulated data with more rows

# Show the DataFrame

# Generate summary statistics using describe

# Calculate additional statistics for Age and Salary

You might also like