distribute by在spark中的一些应用
一.在二次排序当中的应用
1.1
说到排序当然第一想到的就是sort by和order by这两者的区别,也分情况。
在算子当中,两者没有区别,orderby()调用的也是sort。order by就是sort的别名。
/**
* Returns a new Dataset sorted by the given expressions.
* This is an alias of the `sort` function.
*
* @group typedrel
* @since 2.0.0
*/
@scala.annotation.varargs
def orderBy(sortExprs: Column*): Dataset[T] = sort(sortExprs : _*)
在spark sql语句中,则关系到是否全局排序。
https://spark.apache.org/docs/3.0.0/sql-ref-syntax-qry-select-orderby.html
The ORDER BY clause is used to return the result rows in a sorted manner in the user specified order. Unlike the SORT BY clause, this clause guarantees a total order in the output
ORDER BY子句用于按照用户指定的顺序以排序的方式返回结果行。与SORT BY子句不同,该子句保证输出中的总顺序
1.2
如果只想针对一个字段的排序时,这些貌似都没有问题。
但是如果想针对多个字段进行二次排序,三次排序呢?
select col1,col2 from table order by name,time
针对以上语句,我想根据名称以及时间进行排序,在一个spark 集群里运行并没有得到预期的值。
为什么order by在一个分布式计算里针对两个以上的字段进行排序达不到预期的效果呢?我觉得是因为,不同的name数据行分布在不同的节点或者分区上,order by只能保证各分区内的效果。查看结果也确实是,不同的name有一段有一个顺序的时间值,然后变成了另一个name,过一会儿,也跳会了原来的name区别。
结果就不贴出来了。
网上有过一些二次排序的方案,个人觉得使用distribute最简单。
DISTRIBUTE BY子句用于根据输入表达式对数据进行重新分区。
针对上面的order by在分布式环境下不能全局二次排序的情况,DISTRIBUTE BY可完美解决,因为它的作用就是针对某一字段,把相同的数据划分到同一分区。
然后数据在同一个分区了,那么再使用order by 或者sort by进行排序,二次三次排序都没有问题。
以下sql语句先对同name的划分到同一分区,然后针对name,time进行排序,可以得到预期效果。
select col1,col2 from table distribute name order by name time
二.
distribute by解决mappartition的迭代器里OOM的问题
2.1考虑一个业务场景。
有一个车辆数据,每天需要计算每个车的统计数据。很笼统。大概就是spark在凌晨读取前一天数据,然后按车辆ID分组进行计算。
第一想到的多半是group by id,然后在一个mapprittion接收一个迭代器进行循环处理。
dsInit.groupByKey(new MapFunction<DataSourceModel, String>() {
@Override
public String call(DataSourceModel dataSourceModel) throws Exception {
return dataSourceModel.getVin();
}
}, Encoders.STRING())
.flatMapGroups(new FlatMapGroupsFunction<String, DataSourceModel, Result>() {
@Override
public Iterator<Result> call(String key, Iterator<DataSourceModel> iterator) throws Exception {
//iterator迭代处理
}
但这样的风险很明显,就是OOM的风险。spark等大数据框架最大的特点就在于管道处理。不怕处理的数据量大,也不怕服务器资源少(满足最低配置),可以一点一点处理,再汇总,内存放不下就落磁盘。但mappartition的iterator相当于就是把当前分区的数据全部加载到内存当中来处理,如果当前分区数据量过大,那么OOM就是必然的。
2.2 如果当前分区数据量过大,可以使用其它方案。
2.2.1
使用DISTRIBUTE BY将数据按字段进行分区,通过2.1我们已经能够确认这一点。
在这基础上,再进行mappartition,同样是接收到一个iterator进行处理,没有OOM风险。
经实证,同样的数据,使用group by加FlatMapGroupsFunction直接OOM,
使用
select col1,col2 from table DISTRIBUTE BY id sort by id,time....
得到一个dataset,再进行MapGroupsFunctiont可有效避免OOM风险。
2.2.2
这里还涉及到一个mappartion真的比map效率高吗
https://blog.csdn.net/weixin_29531897/article/details/114732360
这篇文章作者经过测试,mappartion并不一定效率高,而且有OOM风险。
在文章里也提到另一个解决方案。
大概是利用scala的iterator进行map.
def mapFunc[T, U](iterator: Iterator[T], f2: T => (U)) = { iterator.map(x => { f2(x) }) }
或者直接在mapprition里的iterator进行iterator.map(x => { //业务逻辑处理 })
很遗憾,经测试,同样的上述的数据集,这两种方法都直接OOM。并没有达到文章里说的效果。
2.2.3
在一些特定的业务场景下可以使用reduceGroups
相当于rdd的reduce,两两处理,最终得到一条结果。
reduceGroups(new ReduceFunction<ChargeIteratorMap>() {
@Override
public ChargeIteratorMap call(ChargeIteratorMap v1, ChargeIteratorMap v2) throws Exception {
return service(v1, v2);
}
})
如上述业务场景,可先分组并进行排序,再使用reduceGroups当前数据与前一条数据进行计算累加计算,并把临时结果通过java bean或者case class或者第三方流水保存。
注意:reduceGroups在只有一条数据的时候不执行。
参考:
https://spark.apache.org/docs/3.0.0/sql-ref-syntax-qry-select-distribute-by.html
distribute by在spark中的一些应用的更多相关文章
- Spark中常用工具类Utils的简明介绍
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
- SPARK 中 DriverMemory和ExecutorMemory
spark中,不论spark-shell还是spark-submit,都可以设置memory大小,但是有的同学会发现有两个memory可以设置.分别是driver memory 和executor m ...
- Scala 深入浅出实战经典 第65讲:Scala中隐式转换内幕揭秘、最佳实践及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
- Scala 深入浅出实战经典 第61讲:Scala中隐式参数与隐式转换的联合使用实战详解及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载: 百度云盘:http://pan.baidu.com/s/1c0noOt ...
- Scala 深入浅出实战经典 第60讲:Scala中隐式参数实战详解以及在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
- Scala 深入浅出实战经典 第51讲:Scala中链式调用风格的实现代码实战及其在Spark中应用
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
- Scala 深入浅出实战经典 第48讲:Scala类型约束代码实战及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
- Scala 深入浅出实战经典 第47讲:Scala多重界定代码实战及其在Spark中的应用
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
- Scala 深入浅出实战经典 第42讲:scala 泛型类,泛型函数,泛型在spark中的广泛应用
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-64讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
- Spark中的编程模型
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Applicat ...
随机推荐
- Python从零到壹丨详解图像平滑的两种非线性滤波方法
摘要:本文将详细讲解两种非线性滤波方法中值滤波和双边滤波. 本文分享自华为云社区<[Python从零到壹] 五十六.图像增强及运算篇之图像平滑(中值滤波.双边滤波)>,作者: eastmo ...
- ARP欺骗工具-arpspoof
arpspoof arpspoof是dsniff下的一个ARP欺骗工具 大概原理: 两台主机HostA 和 HostB想要进行通信的流程,那么主机A将需要知道自己的ip,mac 以及主机B的ip, m ...
- Python学习笔记--图像的进一步学习
演示地图的可视化的实现 示例: 设置全局选项 可以设置出不同的颜色,不会显得很干巴: 国内地图: 那么,我们应当如何找到相对应的颜色的编号呢? 基本步骤: 前往ab173.com网站 然后在,前端那里 ...
- 11.3 shtctl的指定省略(harib08c)
ps:能力有限,若有错误及纰漏欢迎指正.交流 11.3 shtctl的指定省略(harib08c) 对bootpack.h做了如下改动 struct SHEET { unsigned char *bu ...
- ElasticSearch的常用API
ElasticSearch的常用API 1.在服务器上怎么查ES的信息 # 通过使用_cat可以查看支持的命令 ### curl localhost:9200/_cat eg: /_cat/alloc ...
- MySQL 主从复制的问题及解决方案
更多内容,前往 IT-BLOG 复制功能是构建 MySQL 的大规模.高性能的基础,也就是所谓的 "水平扩展" 架构.我们可以通过为服务器配置一个或多个备库.同时,复制也是高可用性 ...
- Go语言:利用 TDD 逐步为一个字典应用创建完整的 CRUD API
前言 在数组这一章节中,我们学会了如何按顺序存储值.现在,我们再来看看如何通过键存储值,并快速查找它们. Maps 允许你以类似于字典的方式存储值.你可以将键视为单词,将值视为定义. 所以,难道还有比 ...
- MyBatis各个版本下载 以及 Apache Maven 安装
推荐下面两篇文章:实测有效! MyBatis下载和环境搭建 Maven详细安装教程
- 网络调试助手|网络调试助手(CM精装版) V4.1.0 绿色版
http://www.winwin7.com/soft/16987.html#xiazai 网络调试助手软件功能 1.支持UDP,TCP协议2.支持单播/广播,集成TCP服务器和客户端3.支持ASCI ...
- 基于Go/Grpc/kubernetes/Istio开发微服务的最佳实践尝试 - 1/3
基于Go/Grpc/kubernetes/Istio开发微服务的最佳实践尝试 - 1/3 基于Go/Grpc/kubernetes/Istio开发微服务的最佳实践尝试 - 2/3 基于Go/Grpc/ ...