一.概述 在许多数据中,都存在类别的数据,在一些功能中需要根据类别分别获取前几或后几的数据,用于数据可视化或异常数据预警.在这种情况下,实现分组TopN就显得非常重要了,因此,使用了Spark聚合函数和排序算法实现了分布式TopN计算功能. 二.代码实现 package scala import org.apache.log4j.{Level, Logger} import org.apache.spark.sql.types.{StringType, StructField, StructTy