fix.

gatorsmile · gatorsmile · commit 0f95a6f564b0 · 2017-03-04T13:50:11.000-08:00
diff --git a/R/pkg/inst/tests/testthat/test_sparkSQL.R b/R/pkg/inst/tests/testthat/test_sparkSQL.R
@@ -2558,8 +2558,8 @@ test_that("coalesce, repartition, numPartitions", {
 
   df2 <- repartition(df1, 10)
   expect_equal(getNumPartitions(df2), 10)
-  expect_equal(getNumPartitions(coalesce(df2, 13)), 5)
-  expect_equal(getNumPartitions(coalesce(df2, 7)), 5)
+  expect_equal(getNumPartitions(coalesce(df2, 13)), 10)
+  expect_equal(getNumPartitions(coalesce(df2, 7)), 7)
   expect_equal(getNumPartitions(coalesce(df2, 3)), 3)
 })
 
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/optimizer/Optimizer.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/optimizer/Optimizer.scala
@@ -562,46 +562,43 @@ object CollapseProject extends Rule[LogicalPlan] {
 }
 
 /**
- * Combines adjacent [[Repartition]] and [[RepartitionByExpression]] operator combinations
- * by keeping only the one.
- * 1. For adjacent [[Repartition]]s, collapse into the last [[Repartition]] if their shuffle types
- *    are the same or the parent's shuffle is true.
- * 2. For adjacent [[RepartitionByExpression]]s, collapse into the last [[RepartitionByExpression]].
- * 3. When a shuffle-enabled [[Repartition]] is above a [[RepartitionByExpression]], collapse as a
- *    single [[RepartitionByExpression]] with the expression and the last number of partition.
- * 4. When a [[RepartitionByExpression]] is above a [[Repartition]], collapse as a single
- *    [[RepartitionByExpression]] with the expression and the last number of partition.
+ * Combines adjacent [[RepartitionOperation]] operators
  */
 object CollapseRepartition extends Rule[LogicalPlan] {
   def apply(plan: LogicalPlan): LogicalPlan = plan transformUp {
-    // Case 1
-    case r @ Repartition(numPartitions, shuffle, child @ Repartition(_, _, grandChild)) =>
-      (shuffle, child.shuffle) match {
-        case (true, true) | (true, false) | (false, false) =>
-          Repartition(numPartitions, shuffle, grandChild)
-        case (false, true) if numPartitions >= child.numPartitions =>
-          child
-        case _ =>
-          r
+    // Case 1: When a Repartition has a child of Repartition or RepartitionByExpression,
+    // we can collapse it with the child based on the type of shuffle and the specified number
+    // of partitions.
+    case r @ Repartition(_, _, child: Repartition) =>
+      collapseRepartition(r, child)
+    case r @ Repartition(_, _, child: RepartitionByExpression) =>
+      collapseRepartition(r, child)
+    // Case 2: When a RepartitionByExpression has a child of Repartition or RepartitionByExpression
+    // we can remove the child.
+    case r @ RepartitionByExpression(_, child: RepartitionByExpression, _) =>
+      r.copy(child = child.child)
+    case r @ RepartitionByExpression(_, child: Repartition, _) =>
+      r.copy(child = child.child)
+  }
+
+  /**
+   * Collapses the [[Repartition]] with its child [[RepartitionOperation]], if possible.
+   * - Case 1 the top [[Repartition]] does not enable shuffle (i.e., coalesce API):
+   *   If the last numPartitions is bigger, returns the child node; otherwise, keep unchanged.
+   * - Case 2 the top [[Repartition]] enables shuffle (i.e., repartition API):
+   *   returns the child node with the last numPartitions.
+   */
+  private def collapseRepartition(r: Repartition, child: RepartitionOperation): LogicalPlan = {
+    (r.shuffle, child.shuffle) match {
+      case (false, true) => child match {
+        case c: Repartition => if (r.numPartitions >= c.numPartitions) c else r
+        case c: RepartitionByExpression => if (r.numPartitions >= c.numPartitions) c else r
       }
-    // Case 2
-    case RepartitionByExpression(exprs, RepartitionByExpression(_, grandChild, _), numPartitions) =>
-      RepartitionByExpression(exprs, grandChild, numPartitions)
-    // Case 3
-    case Repartition(numPartitions, _, r: RepartitionByExpression) =>
-      r.copy(numPartitions = numPartitions)
-    // Case 3
-    case r @ Repartition(numPartitions, shuffle, child: RepartitionByExpression) =>
-      if (shuffle) {
-        child.copy(numPartitions = numPartitions)
-      } else if (numPartitions >= child.numPartitions) {
-        r
-      } else {
-        r
+      case _ => child match {
+        case child: Repartition => child.copy(numPartitions = r.numPartitions, shuffle = r.shuffle)
+        case child: RepartitionByExpression => child.copy(numPartitions = r.numPartitions)
       }
-    // Case 4
-    case RepartitionByExpression(exprs, Repartition(_, _, grandChild), numPartitions) =>
-      RepartitionByExpression(exprs, grandChild, numPartitions)
+    }
   }
 }
 
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/plans/logical/basicLogicalOperators.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/plans/logical/basicLogicalOperators.scala
@@ -835,16 +835,23 @@ case class Distinct(child: LogicalPlan) extends UnaryNode {
   override def output: Seq[Attribute] = child.output
 }
 
+/**
+ * A base interface for [[RepartitionByExpression]] and [[Repartition]]
+ */
+abstract class RepartitionOperation(numPartitions: Int) extends UnaryNode {
+  def shuffle: Boolean
+  override def output: Seq[Attribute] = child.output
+}
+
 /**
  * Returns a new RDD that has exactly `numPartitions` partitions. Differs from
  * [[RepartitionByExpression]] as this method is called directly by DataFrame's, because the user
  * asked for `coalesce` or `repartition`. [[RepartitionByExpression]] is used when the consumer
  * of the output requires some specific ordering or distribution of the data.
  */
 case class Repartition(numPartitions: Int, shuffle: Boolean, child: LogicalPlan)
-  extends UnaryNode {
+  extends RepartitionOperation(numPartitions) {
   require(numPartitions > 0, s"Number of partitions ($numPartitions) must be positive.")
-  override def output: Seq[Attribute] = child.output
 }
 
 /**
@@ -856,14 +863,12 @@ case class Repartition(numPartitions: Int, shuffle: Boolean, child: LogicalPlan)
 case class RepartitionByExpression(
     partitionExpressions: Seq[Expression],
     child: LogicalPlan,
-    numPartitions: Int) extends UnaryNode {
+    numPartitions: Int) extends RepartitionOperation(numPartitions) {
 
   require(numPartitions > 0, s"Number of partitions ($numPartitions) must be positive.")
 
-  override lazy val resolved: Boolean = super.resolved && numPartitions.nonEmpty
-
   override def maxRows: Option[Long] = child.maxRows
-  override def output: Seq[Attribute] = child.output
+  override def shuffle: Boolean = true
 }
 
 /**
diff --git a/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/optimizer/CollapseRepartitionSuite.scala b/sql/catalyst/src/test/scala/org/apache/spark/sql/catalyst/optimizer/CollapseRepartitionSuite.scala
@@ -34,61 +34,82 @@ class CollapseRepartitionSuite extends PlanTest {
 
 
   test("collapse two adjacent coalesces into one") {
-    val query = testRelation
+    // Always respects the top coalesces amd removes useless coalesce below coalesce
+    val query1 = testRelation
       .coalesce(10)
       .coalesce(20)
+    val query2 = testRelation
+      .coalesce(30)
+      .coalesce(20)
+
+    val optimized1 = Optimize.execute(query1.analyze)
+    val optimized2 = Optimize.execute(query2.analyze)
 
-    val optimized = Optimize.execute(query.analyze)
     val correctAnswer = testRelation.coalesce(20).analyze
 
-    comparePlans(optimized, correctAnswer)
+    comparePlans(optimized1, correctAnswer)
+    comparePlans(optimized2, correctAnswer)
   }
 
   test("collapse two adjacent repartitions into one") {
-    val query = testRelation
+    // Always respects the top repartition amd removes useless repartition below repartition
+    val query1 = testRelation
       .repartition(10)
       .repartition(20)
+    val query2 = testRelation
+      .repartition(30)
+      .repartition(20)
 
-    val optimized = Optimize.execute(query.analyze)
+    val optimized1 = Optimize.execute(query1.analyze)
+    val optimized2 = Optimize.execute(query2.analyze)
     val correctAnswer = testRelation.repartition(20).analyze
 
-    comparePlans(optimized, correctAnswer)
+    comparePlans(optimized1, correctAnswer)
+    comparePlans(optimized2, correctAnswer)
   }
 
-  test("collapse one coalesce and one repartition into one") {
-    // Remove useless coalesce below repartition
+  test("coalesce above repartition") {
+    // Remove useless coalesce above repartition
     val query1 = testRelation
+      .repartition(10)
       .coalesce(20)
-      .repartition(5)
 
     val optimized1 = Optimize.execute(query1.analyze)
-    val correctAnswer1 = testRelation.repartition(5).analyze
+    val correctAnswer1 = testRelation.repartition(10).analyze
 
     comparePlans(optimized1, correctAnswer1)
 
-    // Remove useless coalesce above repartition when its numPartitions is larger than or equal to
-    // the child's numPartitions
+    // No change in this case
     val query2 = testRelation
-      .repartition(5)
+      .repartition(30)
       .coalesce(20)
 
     val optimized2 = Optimize.execute(query2.analyze)
-    val correctAnswer2 = testRelation.repartition(5).analyze
+    val correctAnswer2 = query2.analyze
 
     comparePlans(optimized2, correctAnswer2)
+  }
+
+  test("repartition above coalesce") {
+    // Always respects the top repartition amd removes useless coalesce below repartition
+    val query1 = testRelation
+      .coalesce(10)
+      .repartition(20)
+    // Remove useless coalesce above repartition
+    val query2 = testRelation
+      .coalesce(30)
+      .repartition(20)
 
-    // Keep coalesce above repartition unchanged when its numPartitions is smaller than the child
-    val query3 = testRelation
-      .repartition(5)
-      .coalesce(3)
+    val optimized1 = Optimize.execute(query1.analyze)
+    val optimized2 = Optimize.execute(query2.analyze)
 
-    val optimized3 = Optimize.execute(query3.analyze)
-    val correctAnswer3 = testRelation.repartition(5).coalesce(3).analyze
+    val correctAnswer = testRelation.repartition(20).analyze
 
-    comparePlans(optimized3, correctAnswer3)
+    comparePlans(optimized1, correctAnswer)
+    comparePlans(optimized2, correctAnswer)
   }
 
-  test("collapse repartition and repartitionBy into one") {
+  test("repartitionBy above repartition") {
     val query1 = testRelation
       .repartition(10)
       .distribute('a)(20)
@@ -99,7 +120,7 @@ class CollapseRepartitionSuite extends PlanTest {
     comparePlans(optimized1, correctAnswer1)
 
     val query2 = testRelation
-      .coalesce(10)
+      .repartition(30)
       .distribute('a)(20)
 
     val optimized2 = Optimize.execute(query2.analyze)
@@ -108,7 +129,27 @@ class CollapseRepartitionSuite extends PlanTest {
     comparePlans(optimized2, correctAnswer2)
   }
 
-  test("collapse repartitionBy and repartition into one") {
+  test("repartitionBy above coalesce") {
+    val query1 = testRelation
+      .coalesce(10)
+      .distribute('a)(20)
+
+    val optimized1 = Optimize.execute(query1.analyze)
+    val correctAnswer1 = testRelation.distribute('a)(20).analyze
+
+    comparePlans(optimized1, correctAnswer1)
+
+    val query2 = testRelation
+      .coalesce(20)
+      .distribute('a)(30)
+
+    val optimized2 = Optimize.execute(query2.analyze)
+    val correctAnswer2 = testRelation.distribute('a)(30).analyze
+
+    comparePlans(optimized2, correctAnswer2)
+  }
+
+  test("repartition above repartitionBy") {
     val query1 = testRelation
       .distribute('a)(20)
       .repartition(10)
@@ -123,30 +164,48 @@ class CollapseRepartitionSuite extends PlanTest {
       .repartition(30)
 
     val optimized2 = Optimize.execute(query2.analyze)
-    val correctAnswer2 = testRelation.distribute('a)(20).analyze
+    val correctAnswer2 = testRelation.distribute('a)(30).analyze
 
     comparePlans(optimized2, correctAnswer2)
   }
 
   test("coalesce above repartitionBy") {
-    val query = testRelation
+    val query1 = testRelation
       .distribute('a)(20)
       .coalesce(10)
 
-    val optimized = Optimize.execute(query.analyze)
-    val correctAnswer = testRelation.distribute('a)(20).coalesce(10).analyze
+    val optimized1 = Optimize.execute(query1.analyze)
+    val correctAnswer1 = testRelation.distribute('a)(20).coalesce(10).analyze
+
+    comparePlans(optimized1, correctAnswer1)
+
+    val query2 = testRelation
+      .distribute('a)(20)
+      .coalesce(30)
 
-    comparePlans(optimized, correctAnswer)
+    val optimized2 = Optimize.execute(query2.analyze)
+    val correctAnswer2 = testRelation.distribute('a)(20).analyze
+
+    comparePlans(optimized2, correctAnswer2)
   }
 
   test("collapse two adjacent repartitionBys into one") {
-    val query = testRelation
+    val query1 = testRelation
       .distribute('b)(10)
       .distribute('a)(20)
 
-    val optimized = Optimize.execute(query.analyze)
-    val correctAnswer = testRelation.distribute('a)(20).analyze
+    val optimized1 = Optimize.execute(query1.analyze)
+    val correctAnswer1 = testRelation.distribute('a)(20).analyze
+
+    comparePlans(optimized1, correctAnswer1)
+
+    val query2 = testRelation
+      .distribute('b)(30)
+      .distribute('a)(20)
+
+    val optimized2 = Optimize.execute(query2.analyze)
+    val correctAnswer2 = testRelation.distribute('a)(20).analyze
 
-    comparePlans(optimized, correctAnswer)
+    comparePlans(optimized2, correctAnswer2)
   }
 }