spark sql的agg函数,作用：在整体DataFrame不分组聚合

、agg(expers:column*) 返回dataframe类型 ，同数学计算求值

df.agg(max("age"), avg("salary"))

df.groupBy().agg(max("age"), avg("salary"))

、 agg(exprs: Map[String, String])  返回dataframe类型 ，同数学计算求值 map类型的

df.agg(Map("age" -> "max", "salary" -> "avg"))

df.groupBy().agg(Map("age" -> "max", "salary" -> "avg"))

、 agg(aggExpr: (String, String), aggExprs: (String, String)*)  返回dataframe类型 ，同数学计算求值

df.agg(Map("age" -> "max", "salary" -> "avg"))

df.groupBy().agg(Map("age" -> "max", "salary" -> "avg"))

例子1：

scala> spark.version

res2: String = 2.0.

 

scala> case class Test(bf: Int, df: Int, duration: Int, tel_date: Int)

defined class Test

 

scala> val df = Seq(Test(,,,), Test(,,,), Test(,,,), Test(,,,), Test(,,,), Test(,,,)).toDF

df: org.apache.spark.sql.DataFrame = [bf: int, df: int ...  more fields]

 

scala> df.show

+---+---+--------+--------+

| bf| df|duration|tel_date|

+---+---+--------+--------+

|  |  |       |       |

|  |  |       |       |

|  |  |       |       |

|  |  |       |       |

|  |  |       |       |

|  |  |       |       |

+---+---+--------+--------+

 

 

scala> df.groupBy("bf", "df").agg(("duration","sum"),("tel_date","min"),("tel_date","max")).show()

+---+---+-------------+-------------+-------------+

| bf| df|sum(duration)|min(tel_date)|max(tel_date)|

+---+---+-------------+-------------+-------------+

|  |  |            |            |            |

|  |  |            |            |            |

+---+---+-------------+-------------+-------------+

注意：此处df已经少了列duration和tel_date，只有groupby的key和agg中的字段

例子2：

import pyspark.sql.functions as func

agg(func.max("event_time").alias("max_event_tm"),func.min("event_time").alias("min_event_tm"))

spark sql的agg函数,作用：在整体DataFrame不分组聚合的更多相关文章

Spark SQL内置函数
Spark SQL内置函数官网API:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.fun ...
Spark SQL笔记——技术点汇总
目录概述原理组成执行流程性能 API 应用程序模板通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源数据库JDBC数据源 DataF ...
Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
Spark SQL 函数全集
org.apache.spark.sql.functions是一个Object,提供了约两百多个函数. 大部分函数与Hive的差不多. 除UDF函数,均可在spark-sql中直接使用. 经过impo ...
Spark SQL 自定义函数类型
Spark SQL 自定义函数类型一.spark读取数据二.自定义函数结构三.附上长长的各种pom 一.spark读取数据前段时间一直在研究GeoMesa下的Spark JTS,Spark J ...
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark SQL 1.3测试
Spark SQL 1.3 参考官方文档:Spark SQL and DataFrame Guide 概览介绍参考:平易近人.兼容并蓄——Spark SQL 1.3.0概览 DataFrame提供了一 ...
Spark2.x学习笔记：Spark SQL程序设计
1.RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义. RDD需要用户自己优化程序,对程序员要求较高. 从不同数据源读取数据相对困难. 合并多个数据源中的数据也较困难. ...

随机推荐

VS2017 配置freeglut3.0.0
配置freeglut: 1. 先下载cmake和freeglut3.0.0文件,并使用cmake编译freeglut,再使用vs2017生成解决方案,详细步骤见https://blog.csdn.ne ...
puppet cron资源管理
1.可用参数: ensure ensure => {present|absent}, 决定该计划任务的目标状态,present 如该cron不存在,则添加;absent 如该cro ...
git 删除仓库的文件
git移除远程仓库某个文件夹 1.比如src/product/ 文件夹 git rm -r --cached "src/product" //执行命令. 2.提交到本地 git c ...
day_6.14py网络编程
被动套接字和新建出套接字的区别单任务,单线程,非阻塞!!!!服务器! #2018-6-14 16:51:25 #!--*--coding:utf-8 --*-- ''' 单进程,单任务少的可以,多 ...
.net core 支持apk下载
在 app.UseStaticFiles(); 后面加上 app.UseStaticFiles(new StaticFileOptions { //FileProvider = new Physica ...
新版谷歌浏览器怎么查找和改变编码格式 IT开发人员谷歌的编码格式
解决方法在最下面,还有可下载的安装包今天,无意中在解决一个乱码问题,后台是有过判断解决兼容性问题,但是有个别电脑还是有乱码问题,就去想改变下前台的编码格式,突然发现一向好用的谷歌,居然找不到编码格式 ...
洛谷P1316 丢瓶盖【二分】【贪心】
题目:https://www.luogu.org/problemnew/show/P1316 题意: 给定a个点的坐标(在一条直线上),现在要选b个点,问这b个点的最近距离的最大值是多少. 思路: 感 ...
.NET Core开发日志——配置
熟悉ASP.NET的开发者一定对web.config文件不陌生.在ASP.NET环境中,要想添加配置参数,一般也都会在此文件中操作.其中最常用的莫过于AppSettings与ConnectionStr ...
Codeforces 698A - Vacations - [简单DP]
题目链接:http://codeforces.com/problemset/problem/698/A 题意: 有 $n$ 天假期,每天有四种情况:0.体育馆不开门,没有比赛:1.体育馆不开门,有比赛 ...
请运行TestStaticInitializeBlock.java示例，观察输出结果，总结出“静态初始化块的执行顺序”。
答:执行顺序:静态初始化块->初始化块->构造函数静态初始化块:在第一次加载类时执行,与对象的创建无关. 构造代码块:在调用构造方法时执行. 构造函数:在调用构造函数时执行.

spark sql的agg函数,作用：在整体DataFrame不分组聚合

spark sql的agg函数,作用：在整体DataFrame不分组聚合的更多相关文章

随机推荐

热门专题