Spark Streaming高吞吐、高可靠的一些优化
分享一些Spark Streaming在使用中关于高吞吐和高可靠的优化。
作为Spark的流式处理框架,Spark Streaming基于微批RDDs实现,需要7*24小时运行。在实践中,我们需要通过不断的优化来保证它的高可靠,高吞吐。
本文从高吞吐和高可靠两个角度来简单介绍一下Spark Streaming中常用的一些优化方式。
1. 高吞吐的优化方式
1.1 更改序列化的方式
Spark在变量落盘或者序列化的时候会涉及到序列化。
Spark提供了Java自带的序列化和Kryo序列化。Kyro序列化比Java序列化更快,推荐使用Kyro序列化。
在Spark2.0后将Kyro序列化作为简单类型的默认序列化方式。对于我们自己的类,可以通过registerKyroClasses来注册。
1.2 修改Receiver接受到的数据的存储级别
Spark Streaming通过Receiver来接收数据,接收后会以StorageLevel.MEMORY_AND_DISK_SER_2的存储级别来存储数据。
将接收到的数据存储两份是为了有更好的容错性,如果你的Streaming程序做了其他的容错,就可以修改为其他的存储级别。
1.3 广播配置变量
对于要在多个Executor中都会用到的变量,可以将变量广播到每个节点上,减少数据传输的开销。
1.4 调大接收器的个数
对数据有序性要求不是很高的场景下,可以多起几个接收器来接收数据。
1.5 设置合理的批处理间隔
对于Streaming系统来说,只有系统的处理速度能赶上接受速度,整个系统才能稳定的运行,不然可能会出现OOM等问题。
批处理间隔的设置可以根据自己的数据量、处理速度、业务峰值等指标来合理估算一个适合自己的。
1.6 多给点资源
这是最基本的了,多分点CPU、内存,吞吐量蹭蹭的就上来了。
1.7 内存比例管理
内存主要用来存储和计算,可以根据自己的场景调整内存的占比。
1.8 垃圾回收机制
基于JVM运行的程序都能通过垃圾回收调优来获得一定的优化。
根据自己的场景选择使用CMS、G1....
1.9 使用合适的算子
对于要读写数据库的场景,肯定是在每个foreachPartition中维护一个连接,而不是每个foreach维护一个。
map和mapPartition同理了。
1.10 反压机制
上游太快,压力太大怎么办。
Spark Streaming中也提供了反压机制,可以设置参数来开启反压机制。
2. 高可靠的保障
2.1 可重放的上游
有个可重放的上游,就不是很怕丢数据了,起码可以保证至少一次。
2.2 checkpoint
通过开启checkpoint将元数据写到文件中,在程序失败重启后可以直接读取checkpoint
2.3 wal
预写日志。
上面也提到了Recevier会将接收到的数据存两份,但是那个可能会丢数据。
如果对可靠性要求较高,还是老老实实的开启wal,缺点就是会损失吞吐量。
2.4 对运行状况做监控
这个的话方法就多了:
- 记得Spark Streaming提供了一个接口,在每个批次处理前后可以做处理。感兴趣的可以研究。
- 写脚本对streaming程序进行监控报警
- .....
3. 参考
- 《Spark Streaming实时流式大数据处理实践》
Spark Streaming高吞吐、高可靠的一些优化的更多相关文章
- 高吞吐高并发Java NIO服务的架构(NIO架构及应用之一)
高吞吐高并发Java NIO服务的架构(NIO架构及应用之一) http://maoyidao.iteye.com/blog/1149015 Java NIO成功的应用在了各种分布式.即时通信和中 ...
- spark streaming限制吞吐
使用spark.streaming.receiver.maxRate这个属性限制每秒的最大吞吐.官方文档如下: Maximum rate (number of records per second) ...
- 高吞吐低延迟Java应用的垃圾回收优化
高吞吐低延迟Java应用的垃圾回收优化 高性能应用构成了现代网络的支柱.LinkedIn有许多内部高吞吐量服务来满足每秒数千次的用户请求.要优化用户体验,低延迟地响应这些请求非常重要. 比如说,用户经 ...
- kafka高吞吐,低延迟的分布式消息队列
核心概念 broker是kafka的节点,多台broker集群就是kafka topic消息分为多个topic partition分区,topic划分了多个partition分区,存在负载均衡策略 每 ...
- 论文阅读计划1(Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming & An Enforcement of Real Time Scheduling in Spark Streaming & StyleBank: An Explicit Representation for Neural Ima)
Benchmarking Streaming Computation Engines: Storm, Flink and Spark Streaming[1] 简介:雅虎发布的一份各种流处理引擎的基准 ...
- Spark Streaming资源动态分配和动态控制消费速率
本篇从二个方面讲解: 高级特性: 1.Spark Streaming资源动态分配 2.Spark Streaming动态控制消费速率 原理剖析,动态控制消费速率其后面存在一套理论,资源动态分配也有一套 ...
- 攻克数据库核心技术壁垒,实现百万级QPS的高吞吐
CynosDB是腾讯云自研的新一代高性能高可用的企业级分布式云数据库.融合了传统数据库.云计算与新硬件的优势,100%兼容开源数据库,百万级QPS的高吞吐,不限存储,价格仅为商用数据库的1/10. C ...
- Kafka是如何实现高吞吐率的
Kafka是如何实现高吞吐率的 原创 2016-02-27 杜亦舒 性能与架构 Kafka是分布式消息系统,需要处理海量的消息,Kafka的设计是把所有的消息都写入速度低容量大的硬盘,以此来换取更强的 ...
- dotnet core高吞吐Http api服务组件FastHttpApi
简介 是dotNet core下基于Beetlex实现的一个高度精简化和高吞吐的HTTP API服务开源组件,它并没有完全实现HTTP SERVER的所有功能,而是只实现了在APP和WEB中提供数据服 ...
随机推荐
- 状压DP之中国象棋
题目 传送们 这次小可可想解决的难题和中国象棋有关,在一个N行M列的棋盘上,让你放若干个炮(可以是0个),使得没有一个炮可以攻击到另一个炮,请问有多少种放置方法.大家肯定很清楚,在中国象棋中炮的行走方 ...
- H5+CSS复习笔记(全)
1.自结束标签和注释 通常标签都是成对出现,如<h1></h1>,<div></div>等等.但是又些标签是没有结束标签的,成为自结束标签,如<i ...
- 移动端商城项目代码截图 使用vue.js。
- 攻防世界ics-4
靶场地址https://adworld.xctf.org.cn/task/answer?type=web&number=3&grade=1&id=4918&page=2 ...
- MYSQL 之 JDBC(二): 数据库连接(二)通过DriverManager获取数据库连接
通过DriverManager获取数据库连接 修改一下配置文件 driver=com.mysql.cj.jdbc.Driver jdbcUrl=jdbc:mysql://localhost:3306/ ...
- java IO流 (六) 其它的流的使用
1. 标准的输入输出流:System.in:标准的输入流,默认从键盘输入System.out:标准的输出流,默认从控制台输出 修改默认的输入和输出行为:System类的setIn(InputStrea ...
- web 部署专题(七):Ubuntu + Nginx + Flask + Gunicore环境搭建(服务器)
现在我们手里有一个准备发布的项目,那么如何将他上传到你的服务器,并让外网访问呢? 安装: 安装Flask pip3 install flask 安装UWSGI pip3 install uwsgi 安 ...
- 数据可视化之powerBI基础(九)Power BI中的“新表”,你会用吗?
https://zhuanlan.zhihu.com/p/64413703 通常情况下,在PowerBI进行分析的各种数据表都是从外部的各种数据源导入进来的,但并不总是如此,某些情况下在PowerBI ...
- freeMarker随手笔记
freemarker官网:http://docs.freemarker.cn/ 注意: 1.如果标签没有嵌套内容(在开始标签和结束标签之间的内容),那么可以只使用开始标签 (详情:http://fre ...
- SSRF漏洞简单分析
什么是SSRF漏洞 SSRF(服务器端请求伪造)是一种由攻击者构造请求,服务器端发起请求的安全漏洞,所以,一般情况下,SSRF攻击的目标是外网无法访问的内部系统. SSRF漏洞形成原理. SSRF的形 ...