spark-sql性能优化之——动态实现多个列应用同一个函数

在对一个dataframe的多个列实现应用同一个函数时，是否能动态的指定？

例如：

对A,B,C三列实现分组统计

1.初始化spark，构建DF

  val spark = SparkSession.builder()

    .appName("name")

    .master("local[2]")

    .getOrCreate()

  val df = spark.read.json("src\\main\\resources\\json.txt")

2.静态实现

  val newDF = df

    .withColumn("cumA", sum("A").over(Window.partitionBy("ID").orderBy("time")))

    .withColumn("cumB", sum("B").over(Window.partitionBy("ID").orderBy("time")))

    .withColumn("cumC", sum("C").over(Window.partitionBy("ID").orderBy("time")))

3. 动态实现

3.1 方法一：select 实现

  import spark.implicits._

  df.select($"*" +: Seq("A", "B", "C").map(c =>

    sum(c).over(Window.partitionBy("ID").orderBy("time")).alias(s"cum$c")

  ): _*)

  //定义函数

   def withColumns(cols : Seq[String],df : DataFrame,f : String => Column) = {

     df.select($"*" +: cols.map(c => f(c)) : _*)

  }

3.2 方法二：foldLeft实现

  Seq("A", "B", "C").foldLeft(df)((df, c) =>

    df.withColumn(s"cum$c",  sum(c).over(Window.partitionBy("ID").orderBy("time")))

  )

  //定义函数

  def withColumn(cols : Seq[String],df : DataFrame,f : String => Column,

                 name : String => String = identity) = {

    cols.foldLeft(df)((df,c) => df.withColumn(name(c),f(c)))

  }

spark-sql性能优化之——动态实现多个列应用同一个函数的更多相关文章

Spark SQL 性能优化再进一步：CBO 基于代价的优化
摘要: 本文将介绍 CBO,它充分考虑了数据本身的特点(如大小.分布)以及操作算子的特点(中间结果集的分布及大小)及代价,从而更好的选择执行代价最小的物理执行计划,即 SparkPlan. Spark ...
SQL性能优化案例分析
这段时间做一个SQL性能优化的案例分析, 整理了一下过往的案例,发现一个比较有意思的,拿出来给大家分享. 这个项目是我在项目开展2期的时候才加入的, 之前一期是个金融内部信息门户, 里面有个功能是收集 ...
ORACLE数据库学习之SQL性能优化详解
Oracle sql 性能优化调整 ...
SQLSERVER SQL性能优化技巧
这篇文章主要介绍了SQLSERVER SQL性能优化技巧,需要的朋友可以参考下 1.选择最有效率的表名顺序(只在基于规则的优化器中有效) SQLSERVER的解析器按照从右到左的顺序处理F ...
Oracle SQL 性能优化技巧
Select语句完整的执行顺序: SQL Select语句完整的执行顺序: 1. from子句组装来自不同数据源的数据: 2.where子句基于指定的条件对记录行进行筛选: 3.group by子句将 ...
SparkSQL的一些用法建议和Spark的性能优化
1.写在前面 Spark是专为大规模数据处理而设计的快速通用的计算引擎,在计算能力上优于MapReduce,被誉为第二代大数据计算框架引擎.Spark采用的是内存计算方式.Spark的四大核心是Spa ...
想让DBA瞬间崩溃，那就让他去做SQL性能优化
摘要:很多大数据计算都是用 SQL 实现的,跑得慢时就要去优化 SQL,但常常碰到让人干瞪眼的情况. 本文分享自华为云社区<做 SQL 性能优化真是让人干瞪眼>,作者: 石臻臻的杂货铺 . ...
SQL性能优化常见措施(Lock wait timeout exceeded)
SQL性能优化常见措施目录 1.mysql中explain命令使用 2.mysql中mysqldumpslow的使用 3.mysql中修改my.ini配置文件记录日志 4.mysql中如何加索引 ...
SQL性能优化
引言: 以前在面试的过程中,总有面试官问道:你做过sql性能优化吗?对此,我的答复是没有.一次没有不是自己的错误,两次也不是,但如果是多次呢?今天痛下决心,把有关sql性能优化的相关知识总结一下,以便 ...

随机推荐

go语言中使用正则表达式
一.代码 package main import ( "fmt" "regexp" ) func main() { text := `Hello 世界!123 ...
Android API Levels 详解
Android API Levels 当你开发你的Android应用程序时,了解该平台API变更管理的基本方法和概念是很有帮助的.同样的,知道API级别标识以及该标识如何保障你的应用与实际硬件设备相兼 ...
CSS：CSS 链接
ylbtech-CSS:CSS 链接 1.返回顶部 1. CSS 链接不同的链接可以有不同的样式. 链接样式链接的样式,可以用任何CSS属性(如颜色,字体,背景等). 特别的链接,可以有不同的样式 ...
arttemplate02
1.后台传来的数据 { "code": 200, "checkRecords": [ { "id": "402881e75cc80 ...
PAT_A1062#Talent and Virtue
Source: PAT A1062 Talent and Virtue (25 分) Description: About 900 years ago, a Chinese philosopher S ...
c程序查找字符出现次数
#include <stdio.h> int main(){ char str[100],ch,M,Empty; int i, frequency = 0; fgets(str, (siz ...
sed命令详解（转载）
sed是stream editor的简称,也就是流编辑器.它一次处理一行内容,处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内 ...
mysql 记录（record）
以下内容来源于<mysql内核:Innodb存储引擎卷1> 简单介绍物理记录和大记录.仅为理解mysql 索引基础存储结构这一章节而写. mysql的默认存储引擎为Innodb.Inn ...
Unity3D中动态创建编辑轴（点，线，圆，圆锥）
问题分析: 最近在搞软件底层开发,将一些工具或者底层脚本打成dll导入unity使用,有这样一需求,就是编辑功能,需要像Scene场景一样,实现那种编辑轴实现方式: 创建Mesh,构建编辑轴,这个地 ...
使用sublime+platUML快速画流程图
程序员难免要经常画流程图,状态图,时序图等.以前经常用 visio 画,经常为矩形画多大,摆放在哪等问题费脑筋.有时候修改文字后,为了较好的显示效果不得不再去修改图形.今天介绍的工具是如何使用 Sub ...

spark-sql性能优化之——动态实现多个列应用同一个函数

spark-sql性能优化之——动态实现多个列应用同一个函数的更多相关文章

随机推荐

热门专题