Spark Streaming 调优指南

SparkStreaming是架构在SparkCore上的一个“应用”，SparkStreaming主要由DStreamGraph、Job的生成、数据的接收和导入以及容错四大模块组成，我们今天就从这四大模块入手，看看每个模块都有什么样的调优方式

1 DStreamGraph

其实这部分主要是算子的使用优化，这个跟Spark调优的内容是相同，在这一部分可以优化的内容有

重复使用的rdd进行cache
使用高性能的算子代替性能差的算子
- reduceByKey\aggregateByKey代替groupByKey
- 使用mappartition代替map
- 使用foreachpartition代替foreach
使用Kryo序列化代替Java序列化
filter之后使用coalesce减少小任务

2 Job的生成

这一部分主要涉及到的调优是batchInternal的调整，为了程序不延迟地执行，合理的batchInternal是必要的

3 数据的接收和导入

这一部分主要是针对数据的接受速度进行调优，如果接收速度大于处理数据，那么程序会走向无限延迟最后崩溃的道路,所以主要的调优在于限速

对于receiver和direct approach 方式都通用的

spark.streaming.backpressure.enabled=true; sparkstreaming框架会自动地计算处理速度来控制数据的接受速度，建议开启
receiver方式
- spark.streaming.receiver.maxRate 来进行限速
- spark.streaming.blockInternal 设置缓存在内存块的大小，防止内存被撑爆
direct approach方式
- spark.streaming.kafka.maxRatePartition来对每个分区进行限速

4 容错

主要是数据的容错方式选择

热备：默认开启数据备份数为2
冷备：开启WAL，将log保存到HDFS上，executor挂掉后可以从hdfs上进行数据的恢复
重放：对于数据源本身支持重放有效，如Kafka，失效后可以通过offset值进行恢复

Spark Streaming 调优指南的更多相关文章

Spark调优 | Spark Streaming 调优
Spark调优 | Spark Streaming 调优 1.数据序列化 2.广播大变量 3.数据处理和接收时的并行度 4.设置合理的批处理间隔 5.内存优化 5.1 内存管理 5.2优化策略 5.3 ...
Spark调优指南
Spark相关问题 Spark比MR快的原因? 1) Spark的计算结果可以放入内存,支持基于内存的迭代,MR不支持. 2) Spark有DAG有向无环图,可以实现pipeline的计算模式. 3) ...
Spark性能调优
Spark性能优化指南——基础篇 https://tech.meituan.com/spark-tuning-basic.html Spark性能优化指南——高级篇 https://tech.meit ...
Spark官方调优文档翻译（转载）
Spark调优由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU.网络带宽.或者内存等.最常见的情况是,数据能装进内存,而瓶颈是网络带宽:当 ...
Spark Job调优(Part 2)
原文链接:https://wongxingjun.github.io/2016/05/11/Spark-Job%E8%B0%83%E4%BC%98-Part-2/ 这篇文章将会完成Part 1中留下的 ...
调优 | Apache Hudi应用调优指南
通过Spark作业将数据写入Hudi时,Spark应用的调优技巧也适用于此.如果要提高性能或可靠性,请牢记以下几点. 输入并行性:Hudi对输入进行分区默认并发度为1500,以确保每个Spark分区都 ...
另一份Java应用调优指南之－前菜
每一次成功的调优,都会诞生又一份的调优指南. 一些必须写在前面的军规,虽然与Java应用的调优没直接关联,但是测试同学经常不留神的地方. 1 独占你的测试机器包括跑JMeter的那些机器. &quo ...
Spark性能调优之代码方面的优化
Spark性能调优之代码方面的优化 1.避免创建重复的RDD 对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 3.对多次使用的RDD进行持久化(ca ...
[Spark性能调优] 第一章：性能调优的本质、Spark资源使用原理和调优要点分析
本課主題大数据性能调优的本质 Spark 性能调优要点分析 Spark 资源使用原理流程 Spark 资源调优最佳实战 Spark 更高性能的算子引言我们谈大数据性能调优,到底在谈什么,它的本质 ...

随机推荐

我的学习之路_第二十五_javaScript
Javascript 作用:可以对表单数据进行校验,可以对页面实现一些动态效果定义: JavaScript一种直译式脚本语言,是一种动态类型.弱类型.基于原型的语言,内置支持类型. 它的解释器被称为 ...
Angular路由（三）
AngularJs ng-route路由详解其实主要是$routeProvider搭配ng-view实现. ng-view的实现原理,基本就是根据路由的切换,动态编译html模板. 前提首先必须在 ...
VB6获取IE8的地址栏的URL信息
这是个老梗了,也没什么技术含量.因为自从接触Linux之后,Windows上我所知道的那一点api基本上都忘光了.所以这样的博文可以当做是备忘,说不定有天还能用的到. Windows上想要获取浏览器的 ...
Hibernate 集合映射一对多多对一 inverse属性 + cascade级联属性多对多一对一关系映射
1 . 集合映射需求:购物商城,用户有多个地址. // javabean设计 // javabean设计 public class User { private int userId; privat ...
DDD理论学习系列（10）-- 聚合
DDD理论学习系列--案例及目录 1.引言聚合,最初是UML类图中的概念,表示一种强的关联关系,是一种整体与部分的关系,且部分能够离开整体而独立存在,如车和轮胎. 在DDD中,聚合也可以用来表示整体 ...
Interlocked原子函数陷阱
一.问题 windows api函数中提供了InterlockedExchange.InterlockedDecrement, InterlockedIncrement, ExInterlockedA ...
java Script 用if else 实现从大到小指定输出，升序排列
我只是一个小白各位大神看到不要介意 var a = Number(prompt("请输入你需要排列的第一个数字")) var b = Number(prompt("请输 ...
select默认选中项颜色为灰色，选择后变为黑色（js实现）
<script> var unSelected = "#999"; var selected = "#333"; $(function () { $ ...
Python基础之常用模块（二）
一.sys模块 1.sys.exit() 退出程序,这是正常退出程序,与之前用的break不同的是,break只是退出循环,循环之后的代码还会正常运行 2.sys.argv 会返回一个列表,列表中的 ...
luogu P1494 岳麓山上打水 [iddfs]
题目描述今天天气好晴朗,处处好风光,好风光!蝴蝶儿忙啊,蜜蜂也忙,信息组的同学们更加忙.最近,由于XX原因,大家不得不到岳麓山去提水.55555555~,好累啊. 信息组有一个容量为q升的大缸,由于 ...