fix comments

clockfly · clockfly · commit 0fdc1eadf46c · 2016-08-23T09:29:28.000+08:00
diff --git a/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/aggregate/interfaces.scala b/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/aggregate/interfaces.scala
@@ -433,14 +433,7 @@ abstract class DeclarativeAggregate
  *     calls method `eval(buffer: T)` to generate the final output for this group.
  *  5. The framework moves on to next group, until all groups have been processed.
  */
-abstract class TypedImperativeAggregate[T >: Null] extends ImperativeAggregate {
-
-  /**
-   * Spark Sql type of user-defined aggregation buffer object. It needs to be an `UserDefinedType`
-   * so that the framework knows how to serialize the aggregation buffer object to Spark sql
-   * internally supported storage format.
-   */
-  def aggregationBufferType: UserDefinedType[T]
+abstract class TypedImperativeAggregate[T] extends ImperativeAggregate {
 
   /**
    * Creates an empty aggregation buffer object. This is called before processing each key group
@@ -478,6 +471,43 @@ abstract class TypedImperativeAggregate[T >: Null] extends ImperativeAggregate {
    */
   def eval(buffer: T): Any
 
+  /** Returns the class of aggregation buffer object */
+  def aggregationBufferClass: Class[T]
+
+  /** Serializes the aggregation buffer object T to Spark-sql internally supported storage format */
+  def serialize(buffer: T): Any
+
+  /** De-serializes the storage format, and produces aggregation buffer object T */
+  def deserialize(storageFormat: Any): T
+
+  /**
+   * Returns the aggregation-buffer-object storage format's Sql type.
+   *
+   * Here is a list of supported storage format and corresponding Sql type:
+   *
+   * {{{
+   *   aggregation buffer object's Storage format    |  storage format's Sql type
+   * ------------------------------------------------------------------------------------------
+   *   Array[Byte] (*)                               |  BinaryType (*)
+   *   Null                                          |  NullType
+   *   Boolean                                       |  BooleanType
+   *   Byte                                          |  ByteType
+   *   Short                                         |  ShortType
+   *   Int                                           |  IntegerType
+   *   Long                                          |  LongType
+   *   Float                                         |  FloatType
+   *   Double                                        |  DoubleType
+   *   org.apache.spark.sql.types.Decimal            |  DecimalType
+   *   org.apache.spark.unsafe.types.UTF8String      |  StringType
+   *   org.apache.spark.unsafe.types.CalendarInterval|  CalendarIntervalType
+   *   org.apache.spark.sql.catalyst.util.MapData    |  MapType
+   *   org.apache.spark.sql.catalyst.util.ArrayData  |  ArrayType
+   *   org.apache.spark.sql.catalyst.InternalRow     |
+   * }}}
+   *
+   */
+  def aggregationBufferStorageFormatSqlType: DataType
+
   final override def initialize(buffer: MutableRow): Unit = {
     val bufferObject = createAggregationBuffer()
     buffer.update(mutableAggBufferOffset, bufferObject)
@@ -496,7 +526,7 @@ abstract class TypedImperativeAggregate[T >: Null] extends ImperativeAggregate {
 
   final override def eval(buffer: InternalRow): Any = {
     val bufferObject = field(buffer, mutableAggBufferOffset)
-    if (bufferObject.getClass == aggregationBufferType.userClass) {
+    if (bufferObject.getClass == aggregationBufferClass) {
       // When used in Window frame aggregation, eval(buffer: InternalRow) is called directly
       // on the object aggregation buffer without intermediate serializing/de-serializing.
       eval(bufferObject.asInstanceOf[T])
@@ -505,17 +535,13 @@ abstract class TypedImperativeAggregate[T >: Null] extends ImperativeAggregate {
     }
   }
 
-  private def deserialize(input: AnyRef): T = {
-    aggregationBufferType.deserialize(input)
-  }
-
   private def field(input: InternalRow, offset: Int): AnyRef = {
     input.get(offset, null)
   }
 
-  final override val aggBufferAttributes: Seq[AttributeReference] = {
+  final override lazy val aggBufferAttributes: Seq[AttributeReference] = {
     // Underlying storage type for the aggregation buffer object
-    Seq(AttributeReference("buf", aggregationBufferType.sqlType)())
+    Seq(AttributeReference("buf", aggregationBufferStorageFormatSqlType)())
   }
 
   final override lazy val inputAggBufferAttributes: Seq[AttributeReference] =
@@ -531,6 +557,6 @@ abstract class TypedImperativeAggregate[T >: Null] extends ImperativeAggregate {
    */
   final def serializeAggregateBufferInPlace(buffer: MutableRow): Unit = {
     val bufferObject = field(buffer, mutableAggBufferOffset).asInstanceOf[T]
-    buffer(mutableAggBufferOffset) = aggregationBufferType.serialize(bufferObject)
+    buffer(mutableAggBufferOffset) = serialize(bufferObject)
   }
 }
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/TypedImperativeAggregateSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/TypedImperativeAggregateSuite.scala
@@ -20,11 +20,11 @@ package org.apache.spark.sql
 import org.apache.spark.sql.TypedImperativeAggregateSuite.TypedMax
 import org.apache.spark.sql.catalyst.InternalRow
 import org.apache.spark.sql.catalyst.expressions.{BoundReference, Expression, UnsafeRow}
-import org.apache.spark.sql.catalyst.expressions.aggregate.{ImperativeAggregate, TypedImperativeAggregate}
+import org.apache.spark.sql.catalyst.expressions.aggregate.{TypedImperativeAggregate}
 import org.apache.spark.sql.execution.aggregate.SortAggregateExec
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.test.SharedSQLContext
-import org.apache.spark.sql.types.{AbstractDataType, DataType, IntegerType, UserDefinedType}
+import org.apache.spark.sql.types.{AbstractDataType, DataType, IntegerType}
 
 class TypedImperativeAggregateSuite extends QueryTest with SharedSQLContext {
 
@@ -119,7 +119,6 @@ object TypedImperativeAggregateSuite {
       mutableAggBufferOffset: Int = 0,
       inputAggBufferOffset: Int = 0) extends TypedImperativeAggregate[MaxValue] {
 
-    override lazy val aggregationBufferType: UserDefinedType[MaxValue] = new MaxValueUDT()
 
     override def createAggregationBuffer(): MaxValue = {
       new MaxValue(Int.MinValue)
@@ -152,27 +151,24 @@ object TypedImperativeAggregateSuite {
 
     override def dataType: DataType = IntegerType
 
-    override def withNewMutableAggBufferOffset(newOffset: Int): ImperativeAggregate =
+    override def withNewMutableAggBufferOffset(newOffset: Int): TypedImperativeAggregate[MaxValue] =
       copy(mutableAggBufferOffset = newOffset)
 
-    override def withNewInputAggBufferOffset(newOffset: Int): ImperativeAggregate =
+    override def withNewInputAggBufferOffset(newOffset: Int): TypedImperativeAggregate[MaxValue] =
       copy(inputAggBufferOffset = newOffset)
 
-  }
-
-  private class MaxValue(var value: Int)
+    override def aggregationBufferClass: Class[MaxValue] = classOf[MaxValue]
 
-  private class MaxValueUDT extends UserDefinedType[MaxValue] {
-    override def sqlType: DataType = IntegerType
+    override def serialize(buffer: MaxValue): Any = buffer.value
 
-    override def serialize(obj: MaxValue): Any = obj.value
+    override def aggregationBufferStorageFormatSqlType: DataType = IntegerType
 
-    override def userClass: Class[MaxValue] = classOf[MaxValue]
-
-    override def deserialize(datum: Any): MaxValue = {
-      datum match {
+    override def deserialize(storageFormat: Any): MaxValue = {
+      storageFormat match {
         case i: Int => new MaxValue(i)
       }
     }
   }
+
+  private class MaxValue(var value: Int)
 }