0% found this document useful (0 votes)

150 views58 pages

SQL & PySpark for Data Engineers

Uploaded by

rakshitbahadur07

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

150 views58 pages

SQL & PySpark for Data Engineers

Uploaded by

rakshitbahadur07

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

Data

Engineering 101
SQL and
PySpark

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

SELECT ALL COLUMNS

SQL

SELECT * FROM table;

PYSPARK

[Link]("*")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

SELECT SPECIFIC COLUMNS

SQL

SELECT col1, col2 FROM table;

PYSPARK

[Link]("col1", "col2")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

FILTERING ROWS (WHERE CLAUSE)

SQL

SELECT * FROM table WHERE condition;

PYSPARK

[Link]("condition")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

ORDERING ROWS
SQL

SELECT * FROM table ORDER BY col1;

PYSPARK

[Link]("col1")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

ORDERING ROWS DESCENDING

SQL

SELECT * FROM table ORDER BY col1 DESC;

PYSPARK

[Link]([Link]())

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

LIMITING ROWS
SQL

SELECT * FROM table LIMIT 10;

PYSPARK

[Link](10)

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

SELECTING DISTINCT VALUES

SQL

SELECT DISTINCT col1 FROM table;

PYSPARK

[Link]("col1").distinct()

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

GROUP BY AND AGGREGATE

(COUNT)
SQL

SELECT col1, COUNT(*) FROM table GROUP

BY col1;

PYSPARK

[Link]("col1").count()

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

GROUP BY AND AGGREGATE (AVG)

SQL

SELECT col1, AVG(col2) FROM table GROUP

BY col1;

PYSPARK

[Link]("col1").avg("col2")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

INNER JOIN
SQL
SELECT *
FROM table1
INNER JOIN table2
ON [Link] = [Link];

PYSPARK

[Link](df2, [Link] == [Link], "inner")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

LEFT JOIN
SQL

SELECT * FROM table1

LEFT JOIN table2 ON [Link] = [Link];

PYSPARK

[Link](df2, [Link] == [Link], "left")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

RIGHT JOIN
SQL
SELECT * FROM table1
RIGHT JOIN table2
ON [Link] = [Link];

PYSPARK

[Link](df2, [Link] == [Link], "right")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

FULL OUTER JOIN

SQL
SELECT * FROM table1
FULL JOIN table2
ON [Link] = [Link];

PYSPARK

[Link](df2, [Link] == [Link], "outer")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

SUBQUERIES
SQL
SELECT * FROM (SELECT col1, col2 FROM
table) sub_table;

PYSPARK

sub_df = [Link]("col1", "col2")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

CASE STATEMENTS
SQL
SELECT col1,
CASE WHEN condition
THEN result ELSE result2 END
FROM table;

PYSPARK
[Link]("col1", when(condition,
result).otherwise(result2).alias("new_col"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

WINDOW FUNCTIONS (ROW NUMBER)

SQL
SELECT col1,
ROW_NUMBER() OVER (ORDER BY col2) AS row_num
FROM table;

PYSPARK

[Link]("row_num",
row_number().over([Link]("col2")))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

WINDOW FUNCTIONS (AGGREGATIONS)

SQL
SELECT col1,
SUM(col2) OVER (PARTITION BY col3) AS sum_col2
FROM table;

PYSPARK

[Link]("sum_col2", sum("col2") \
.over([Link]("col3")))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

LAG FUNCTION
SQL
SELECT col1,
LAG(col2, 1) OVER (ORDER BY col3)
AS lag_col2 FROM table;

PYSPARK

[Link]("lag_col2", lag("col2", 1) \
.over([Link]("col3")))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

LEAD FUNCTION
SQL
SELECT col1,
LEAD(col2, 1) OVER (ORDER BY col3) AS lead_col2
FROM table;

PYSPARK

[Link]("lead_col2", lead("col2", 1) \
.over([Link]("col3")))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

HANDLING NULLS (IS NULL)

SQL

SELECT * FROM table WHERE col1 IS NULL;

PYSPARK

[Link]([Link]())

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

HANDLING NULLS (IS NOT NULL)

SQL
SELECT * FROM table WHERE col1
IS NOT NULL;

PYSPARK

[Link]([Link]())

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

UNION OF TWO TABLES

SQL
SELECT * FROM table1
UNION
SELECT * FROM table2;

PYSPARK

[Link](df2)

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

INTERSECT OF TWO TABLES

SQL
SELECT * FROM table1
INTERSECT
SELECT * FROM table2;

PYSPARK

[Link](df2)

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

EXCEPT (DIFFERENCE) OF TWO TABLES

SQL
SELECT * FROM table1
EXCEPT
SELECT * FROM table2;

PYSPARK

[Link](df2)

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

CREATING TEMPORARY VIEW

SQL
CREATE TEMP VIEW temp_table
AS SELECT * FROM table;

PYSPARK

[Link]("temp_table")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

USING SQL QUERIES ON DATAFRAMES

SQL

SELECT * FROM temp_table;

PYSPARK

[Link]("SELECT * FROM temp_table")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

PIVOTING DATA
SQL
SELECT * FROM
(SELECT col1, col2 FROM table)
PIVOT (SUM(col2) FOR col1 IN ('value1', 'value2'));

PYSPARK

[Link]()\
.pivot("col1", ['value1', 'value2']).sum("col2")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

UPDATING ROWS
SQL
UPDATE table SET col1 = value WHERE
condition;

PYSPARK

df = [Link]("col1", when(condition,
value).otherwise(df.col1))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

DELETING ROWS
SQL

DELETE FROM table WHERE condition;

PYSPARK

df = [Link](~condition)

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

HANDLING DUPLICATES
SQL
SELECT col1, COUNT(*) FROM table
GROUP BY col1 HAVING COUNT(*) > 1;

PYSPARK

[Link]("col1").count().filter("count > 1")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

CALCULATING PERCENTAGE
SQL
SELECT col1, (col2 / col3) * 100 AS percentage
FROM table;

PYSPARK

[Link]("percentage", (df.col2 /
df.col3) * 100)

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

STRING FUNCTIONS (CONCATENATION)

SQL
SELECT CONCAT(col1, col2) AS new_col
FROM table;

PYSPARK

[Link](concat("col1", "col2") \
.alias("new_col"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

DATE FUNCTIONS (CURRENT DATE)

SQL

SELECT CURRENT_DATE AS today;

PYSPARK

[Link](current_date().alias("today"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

EXTRACTING YEAR FROM DATE

SQL
SELECT EXTRACT(YEAR FROM date_col) AS year
FROM table;

PYSPARK

[Link](year("date_col").alias("year"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

CONDITIONAL AGGREGATION
SQL
SELECT SUM(CASE WHEN condition THEN col1 ELSE 0 END)
FROM table;

PYSPARK

[Link](sum(when(condition, df.col1) \
.otherwise(0)))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

RENAMING COLUMNS
SQL

SELECT col1 AS new_col1 FROM table;

PYSPARK

[Link]("col1", "new_col1")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

DROPPING COLUMNS
SQL

ALTER TABLE table DROP COLUMN col1;

PYSPARK

[Link]("col1")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

ADDING NEW COLUMNS

SQL
ALTER TABLE table
ADD COLUMN new_col data_type;

PYSPARK

[Link]("new_col", expression)

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

REPLACING VALUES
SQL

UPDATE table SET col1 = new_value

WHERE condition;

PYSPARK

[Link]("col1", when(condition,
new_value).otherwise(df.col1))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

USING UDFS (USER-DEFINED FUNCTIONS)

SQL
CREATE FUNCTION my_udf AS ...;
SELECT my_udf(col1) FROM table;

PYSPARK

[Link](my_udf("col1"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

EXPLODING ARRAYS
SQL
SELECT col1, EXPLODE(array_col) AS exploded_col
FROM table;

PYSPARK

[Link]("col1", explode("array_col") \
.alias("exploded_col"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

FLATTENING NESTED DATA

SQL

SELECT col1, nested_col.* FROM table;

PYSPARK

[Link]("col1", "nested_col.*")

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

CASTING DATA TYPES

SQL
SELECT CAST(col1 AS data_type)
FROM table;

PYSPARK

[Link]([Link]("data_type"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

HANDLING JSON DATA

SQL
SELECT JSON_VALUE(json_col, '$.key')
FROM table;

PYSPARK

[Link](get_json_object("json_col", "$.key"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

GROUPING SETS
SQL
SELECT col1, col2, SUM(col3)
FROM table
GROUP BY GROUPING SETS ((col1), (col2));

PYSPARK

[Link]("col1",
"col2").agg(sum("col3"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

ROLLUP
SQL
SELECT col1, col2, SUM(col3)
FROM table
GROUP BY ROLLUP(col1, col2);

PYSPARK

[Link]("col1", "col2") \
.agg(sum("col3"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

CUBE
SQL
SELECT col1, col2, SUM(col3)
FROM table GROUP BY CUBE(col1, col2);

PYSPARK

[Link]("col1", "col2") \
.agg(sum("col3"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

RANK FUNCTION
SQL
SELECT col1,
RANK() OVER (ORDER BY col2) AS rank
FROM table;

PYSPARK

[Link]("rank", rank() \
.over([Link]("col2")))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

DENSE RANK FUNCTION

SQL
SELECT col1,
DENSE_RANK() OVER (ORDER BY col2) AS dense_rank
FROM table;

PYSPARK

[Link]("dense_rank",
dense_rank().over([Link]("col2")))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

CUMULATIVE SUM (RUNNING TOTAL)

SQL
SELECT col1,
SUM(col2) OVER (ORDER BY col1) AS running_total
FROM table;

PYSPARK
[Link]("running_total", sum("col2")\
.over([Link]("col1") \
.rowsBetween([Link],
[Link])))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

HANDLING DATES (DATE DIFFERENCE)

SQL

SELECT DATEDIFF(date1, date2) FROM table;

PYSPARK

[Link](datediff("date1", "date2"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

STRING FUNCTIONS (SUBSTRING)

SQL
SELECT SUBSTRING(col1, start, length)
FROM table;

PYSPARK

[Link](substring("col1", start, length))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

UPPER AND LOWER CASE CONVERSION

SQL
SELECT UPPER(col1), LOWER(col2)
FROM table;

PYSPARK

[Link](upper("col1"), lower("col2"))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

FILTER WITH IN CLAUSE

SQL
SELECT * FROM table
WHERE col1 IN (value1, value2);

PYSPARK

[Link]([Link](value1, value2))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

FILTER WITH BETWEEN CLAUSE

SQL
SELECT * FROM table
WHERE col1 BETWEEN value1 AND value2;

PYSPARK

[Link]([Link](value1, value2))

Shwetank Singh
GritSetGrow - [Link]
Data Engineering 101: SQL and PySpark

ORDER BY MULTIPLE COLUMNS

SQL
SELECT * FROM table
ORDER BY col1, col2 DESC;

PYSPARK

[Link]("col1", [Link]())

Shwetank Singh
GritSetGrow - [Link]

SQL and PySpark
No ratings yet
SQL and PySpark
80 pages
Data Engineering with PySpark Guide
No ratings yet
Data Engineering with PySpark Guide
82 pages
SQL & pySPARK
No ratings yet
SQL & pySPARK
9 pages
SQL Vs Pyspark-1
No ratings yet
SQL Vs Pyspark-1
9 pages
SQL vs PySpark Operations Guide
No ratings yet
SQL vs PySpark Operations Guide
8 pages
SQL PySpark Cheat Sheet 1731729790
No ratings yet
SQL PySpark Cheat Sheet 1731729790
9 pages
SQL To Pyspark Conversion
No ratings yet
SQL To Pyspark Conversion
9 pages
SQL & Pyspark
No ratings yet
SQL & Pyspark
9 pages
SQL - & - Pyspak
No ratings yet
SQL - & - Pyspak
6 pages
Comparison of SQL
No ratings yet
Comparison of SQL
11 pages
Pyspark SQL Transformation Cheat Sheet
No ratings yet
Pyspark SQL Transformation Cheat Sheet
3 pages
SQL & PySpark ?
No ratings yet
SQL & PySpark ?
9 pages
Pyspark Syntax Using Simple Examples
No ratings yet
Pyspark Syntax Using Simple Examples
28 pages
Databricks Vs SQL Cheat Sheet
100% (2)
Databricks Vs SQL Cheat Sheet
11 pages
Scenarios Where Bad Records Occur
No ratings yet
Scenarios Where Bad Records Occur
38 pages
DP 700 Code Used 250701
No ratings yet
DP 700 Code Used 250701
47 pages
Big Data Analytics with Spark DataFrames
No ratings yet
Big Data Analytics with Spark DataFrames
79 pages
SQL Cheat Sheet Python
100% (1)
SQL Cheat Sheet Python
1 page
Pandas Vs SQL
No ratings yet
Pandas Vs SQL
50 pages
SQL and Data Analysis Interview Questions
No ratings yet
SQL and Data Analysis Interview Questions
9 pages
SQL Vs PySpark
No ratings yet
SQL Vs PySpark
7 pages
Pyspark SQL Basics Cheat Sheet: Python For Data Science
No ratings yet
Pyspark SQL Basics Cheat Sheet: Python For Data Science
1 page
Methods & Function in Databricks
No ratings yet
Methods & Function in Databricks
34 pages
PySpark SQL Pandas CheatSheet
No ratings yet
PySpark SQL Pandas CheatSheet
2 pages
PySpark Transformations
No ratings yet
PySpark Transformations
18 pages
Pyspark - Cheatsheet With Comparison To SQL5 - Seequality
No ratings yet
Pyspark - Cheatsheet With Comparison To SQL5 - Seequality
36 pages
Pyspark SQL and DataFrames
No ratings yet
Pyspark SQL and DataFrames
6 pages
Techniques
No ratings yet
Techniques
31 pages
Data Cleaning
No ratings yet
Data Cleaning
52 pages
Spark SQL Optimization - Real Case Studies
No ratings yet
Spark SQL Optimization - Real Case Studies
18 pages
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
No ratings yet
Pyspark Scenario-Based Interview Questions & Answers: Nitya Cloudtech PVT LTD
12 pages
PySpark DataFrame Merging Guide
No ratings yet
PySpark DataFrame Merging Guide
42 pages
PySpark Cheatsheet - Elaborate
No ratings yet
PySpark Cheatsheet - Elaborate
14 pages
Python Vocabularies
100% (1)
Python Vocabularies
101 pages
SQL Commands and Functions Guide
100% (1)
SQL Commands and Functions Guide
3 pages
TCS Rejected Many Due To Weak PySpark Logic!?
No ratings yet
TCS Rejected Many Due To Weak PySpark Logic!?
7 pages
PySpark SQL Array Method Explained
No ratings yet
PySpark SQL Array Method Explained
357 pages
Data Frames
No ratings yet
Data Frames
12 pages
PySpark SQL Cheat Sheet Guide
No ratings yet
PySpark SQL Cheat Sheet Guide
1 page
Cheat Sheet: From Spark Data Sources SQL Queries
No ratings yet
Cheat Sheet: From Spark Data Sources SQL Queries
1 page
SparkDataFrames 250719 202947
No ratings yet
SparkDataFrames 250719 202947
11 pages
Quewtion SQL - Pyspark
No ratings yet
Quewtion SQL - Pyspark
4 pages
Quick SQL Cheatsheet: SELECT: Used To Select Data From A Database
No ratings yet
Quick SQL Cheatsheet: SELECT: Used To Select Data From A Database
8 pages
SQL Query All SQL Constraints Table Constraint Name SQL Keyword Description Not Null
No ratings yet
SQL Query All SQL Constraints Table Constraint Name SQL Keyword Description Not Null
33 pages
SQL Database Cheat Sheet Guide
No ratings yet
SQL Database Cheat Sheet Guide
8 pages
Resumão - SQL Com Databricks
No ratings yet
Resumão - SQL Com Databricks
2 pages
SQL For Data Scientist
No ratings yet
SQL For Data Scientist
3 pages
Module III DBMS
No ratings yet
Module III DBMS
13 pages
Week 4. Advanced SQL
No ratings yet
Week 4. Advanced SQL
71 pages
SQL Cheat Sheet
No ratings yet
SQL Cheat Sheet
5 pages
Introduction To SQL
No ratings yet
Introduction To SQL
59 pages
PySpark SQL Basics Cheat Sheet
No ratings yet
PySpark SQL Basics Cheat Sheet
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
PySpark SQL Cheat Sheet Python PDF
No ratings yet
PySpark SQL Cheat Sheet Python PDF
1 page
Traveling Salesman Problem Overview
No ratings yet
Traveling Salesman Problem Overview
2 pages
The AWK Programming Language, 2nd Edition Aho Ebook New Digital File
100% (1)
The AWK Programming Language, 2nd Edition Aho Ebook New Digital File
42 pages
UGRD ITE6100B Fundamentals of Database System PDF
No ratings yet
UGRD ITE6100B Fundamentals of Database System PDF
21 pages
Os Module2 by Divya Miss
No ratings yet
Os Module2 by Divya Miss
104 pages
CPU Scheduling Algorithms Analysis Report
No ratings yet
CPU Scheduling Algorithms Analysis Report
9 pages
Structured Analysis & Design Guide
No ratings yet
Structured Analysis & Design Guide
135 pages
Electronics For Dummies
No ratings yet
Electronics For Dummies
34 pages
Kotlin Exercise Sec 1
No ratings yet
Kotlin Exercise Sec 1
40 pages
Blood Donation System Project
No ratings yet
Blood Donation System Project
7 pages
AI Lab Manual Om
No ratings yet
AI Lab Manual Om
77 pages
C Programming Language - Quick Summary
No ratings yet
C Programming Language - Quick Summary
22 pages
Java Basics and Security Concepts
No ratings yet
Java Basics and Security Concepts
12 pages
Understanding Virtual Memory Management
No ratings yet
Understanding Virtual Memory Management
33 pages
Understanding ISA and RISC-V Architecture
No ratings yet
Understanding ISA and RISC-V Architecture
66 pages
New Perspectives On Computer Concepts 2011 Comprehensive 13th Edition June Jamrich Parsons Download
No ratings yet
New Perspectives On Computer Concepts 2011 Comprehensive 13th Edition June Jamrich Parsons Download
57 pages
ADA Theory CA1 Problem Statements
No ratings yet
ADA Theory CA1 Problem Statements
4 pages
Python Programming Exercises
No ratings yet
Python Programming Exercises
4 pages
C++ vs Python: Key Comparisons
No ratings yet
C++ vs Python: Key Comparisons
4 pages
Chapter 1lecture 1.2 (Machine Instructions) Notes+Homework+References+videoLink
No ratings yet
Chapter 1lecture 1.2 (Machine Instructions) Notes+Homework+References+videoLink
4 pages
Software Developer Resume of Sanskar Bhadauriya
No ratings yet
Software Developer Resume of Sanskar Bhadauriya
1 page
6
No ratings yet
6
3 pages
DSA Time Space Complexity
No ratings yet
DSA Time Space Complexity
6 pages
Chapter 12, 13 - Query Processing and Optimization
No ratings yet
Chapter 12, 13 - Query Processing and Optimization
24 pages
DAA - All Five Units (HandWrittern Notes)
No ratings yet
DAA - All Five Units (HandWrittern Notes)
154 pages
PL SQL MCQ Questions and Answers
0% (1)
PL SQL MCQ Questions and Answers
2 pages
Programming - With - Solutions C
0% (4)
Programming - With - Solutions C
116 pages
Chapter 2 Defining and Moving Character Data
No ratings yet
Chapter 2 Defining and Moving Character Data
32 pages
Activity Guide - Conditionals Make - Unit 4 Lesson 8
No ratings yet
Activity Guide - Conditionals Make - Unit 4 Lesson 8
2 pages
Multi Threading
No ratings yet
Multi Threading
20 pages
Advanced Data Structures Overview
No ratings yet
Advanced Data Structures Overview
86 pages

SQL & PySpark for Data Engineers

Uploaded by

SQL & PySpark for Data Engineers

Uploaded by

Data

SELECT ALL COLUMNS

SELECT * FROM table;

SELECT SPECIFIC COLUMNS

SELECT col1, col2 FROM table;

FILTERING ROWS (WHERE CLAUSE)

SELECT * FROM table WHERE condition;

SELECT * FROM table ORDER BY col1;

ORDERING ROWS DESCENDING

SELECT * FROM table ORDER BY col1 DESC;

SELECT * FROM table LIMIT 10;

SELECTING DISTINCT VALUES

SELECT DISTINCT col1 FROM table;

GROUP BY AND AGGREGATE

SELECT col1, COUNT(*) FROM table GROUP

GROUP BY AND AGGREGATE (AVG)

SELECT col1, AVG(col2) FROM table GROUP

[Link](df2, [Link] == [Link], "inner")

SELECT * FROM table1

[Link](df2, [Link] == [Link], "left")

[Link](df2, [Link] == [Link], "right")

FULL OUTER JOIN

[Link](df2, [Link] == [Link], "outer")

sub_df = [Link]("col1", "col2")

WINDOW FUNCTIONS (ROW NUMBER)

WINDOW FUNCTIONS (AGGREGATIONS)

HANDLING NULLS (IS NULL)

SELECT * FROM table WHERE col1 IS NULL;

HANDLING NULLS (IS NOT NULL)

UNION OF TWO TABLES

INTERSECT OF TWO TABLES

EXCEPT (DIFFERENCE) OF TWO TABLES

CREATING TEMPORARY VIEW

USING SQL QUERIES ON DATAFRAMES

SELECT * FROM temp_table;

[Link]("SELECT * FROM temp_table")

DELETE FROM table WHERE condition;

[Link]("col1").count().filter("count > 1")

STRING FUNCTIONS (CONCATENATION)

DATE FUNCTIONS (CURRENT DATE)

SELECT CURRENT_DATE AS today;

EXTRACTING YEAR FROM DATE

SELECT col1 AS new_col1 FROM table;

ALTER TABLE table DROP COLUMN col1;

ADDING NEW COLUMNS

UPDATE table SET col1 = new_value

USING UDFS (USER-DEFINED FUNCTIONS)

FLATTENING NESTED DATA

SELECT col1, nested_col.* FROM table;

CASTING DATA TYPES

HANDLING JSON DATA

DENSE RANK FUNCTION

CUMULATIVE SUM (RUNNING TOTAL)

HANDLING DATES (DATE DIFFERENCE)

SELECT DATEDIFF(date1, date2) FROM table;

STRING FUNCTIONS (SUBSTRING)

[Link](substring("col1", start, length))

UPPER AND LOWER CASE CONVERSION

FILTER WITH IN CLAUSE

FILTER WITH BETWEEN CLAUSE

ORDER BY MULTIPLE COLUMNS

You might also like