Spark Streaming概念学习系列之SparkStreaming性能调优

SparkStreaming性能调优

合理的并行度

　　减少批处理所消耗时间的常见方式还有提高并行度。有以下三种方式可以提高并行度：

　　1.增加接收器数目

　　　　有时如果记录太多导致单台机器来不及读入并分发的话，接收器会成为系统瓶颈。这时你就需要通过创建多个输入DStream（这样会创建多个接收器）来增加接收器数目，然后使用union 来把数据合并为一个数据源。

　　2.将收到的数据显式地重新分区

　　　　如果接收器数目无法再增加，你可以通过使用DStream.repartition 来显式重新分区输入流（或者合并多个流得到的数据流）来重新分配收到的数据。

　　3.提高聚合计算的并行度

　　　　对于像reduceByKey() 这样的操作，你可以在第二个参数中指定并行度，我们在介绍RDD 时提到过类似的手段。

　　并行度要合理

　　控制reduce 数量，太多的reducer, 造成很多的小任务, 以此产生很多启动任务的开销。太少的reducer, 任务执行行慢!

减少任务启动开销

　　使任务更小(更好的序列化，Kryo序列化)

　　输入数据序列化

　　RDD 序列化

　　TASK 序列化

　　在Standalone 及coarse-grained 模式下的任务启动要比fine-grained 省时(spark on yarn只支持coarse-grained)

　　 1.粗粒度模式（Coarse-grained Mode）：每个应用程序的运行环境由一个Dirver和若干个Executor组成，其中，每个Executor占用若干资源，内部可运行多个Task（对应多少个“slot”）。应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，最后程序运行结束后，回收这些资源。举个例子，比如你提交应用程序时，指定使用5个executor运行你的应用程序，每个executor占用5GB内存和5个CPU，每个executor内部设置了5个slot，则Mesos需要先为executor分配资源并启动它们，之后开始调度任务。另外，在程序运行过程中，mesos的master和slave并不知道executor内部各个task的运行情况，executor直接将任务状态通过内部的通信机制汇报给Driver，从一定程度上可以认为，每个应用程序利用mesos搭建了一个虚拟集群自己使用。

　　2. 细粒度模式（Fine-grained Mode）：鉴于粗粒度模式会造成大量资源浪费，Spark On Mesos还提供了另外一种调度模式：细粒度模式，这种模式类似于现在的云计算，思想是按需分配。与粗粒度模式一样，应用程序启动时，先会启动executor，但每个executor占用资源仅仅是自己运行所需的资源，不需要考虑将来要运行的任务，之后，mesos会为每个executor动态分配资源，每分配一些，便可以运行一个新任务，单个Task运行完之后可以马上释放对应的资源。每个Task会汇报状态给Mesos slave和Mesos Master，便于更加细粒度管理和容错，这种调度模式类似于MapReduce调度模式，每个Task完全独立，优点是便于资源控制和隔离，但缺点也很明显，短作业运行延迟大。

选择合适的batch Duration

　　没有最好的size，只有最合适的size，一切以系统反馈的数据说话

　　原则：要来得及消化流进系统的数据

　　可以从Log4j或者StreamingListener获取反馈

内存调优

　　默认序列化后放入内存

　　清理缓存的RDD

　　在spark.cleaner.ttl之前缓存的RDD都会被清除掉

　　设置spark.streaming.unpersis，系统为你分忧(自动清理)

　　CMS (暂停时间短，但吞吐率不高，并且会引起内存碎片)

　　spark-submit --conf spark.executor.extraJavaOptions=-XX:+UseConcMarkSweepGC App.jar

　　JVM还有另一个参数:-XX:CMSFullGCsBeforeCompaction

　　由于并发收集器不对内存空间进行压缩整理,所以运行一段时间以后会产生"碎片",使得运行效率降低.此值设置运行多少次Full GC以后对内存空间进行压缩整理

设置合理的cpu数

　　很多情况Streaming程序需要的内存不是很多，但是需要更多的cpu。Cpu资源用来做两大类事情：

　　1.接收数据

　　2.处理数据

　　我们需要设置足够的cpu资源，是得有足够的cpu资源用来接收和处理数据，这样才能及时高效的处理数据。

Spark Streaming概念学习系列之SparkStreaming性能调优的更多相关文章

Spark Streaming概念学习系列之SparkStreaming的高层抽象DStream
不多说,直接上干货! SparkStreaming的高层抽象DStream 为了便于理解,Spark Streaming提出了DStream抽象,代表连续不断的数据流. DStream 是一个持续的R ...
Spark Streaming概念学习系列之SparkStreaming运行原理
SparkStreaming运行原理 Spark Streaming不断的从数据源获取数据(连续的数据流),并将这些数据按照周期划分为batch. Spark Streaming将每个batch的数据 ...
SQL Server调优系列基础篇 - 性能调优介绍
前言关于SQL Server调优系列是一个庞大的内容体系,非一言两语能够分析清楚,本篇先就在SQL 调优中所最常用的查询计划进行解析,力图做好基础的掌握,夯实基本功!而后再谈谈整体的语句调优. 通过 ...
SQL Server 调优系列基础篇 - 性能调优介绍
前言关于SQL Server调优系列是一个庞大的内容体系,非一言两语能够分析清楚,本篇先就在SQL 调优中所最常用的查询计划进行解析,力图做好基础的掌握,夯实基本功!而后再谈谈整体的语句调优. 通过 ...
Spark Streaming概念学习系列之Spark Streaming容错
Spark Streaming容错检查点机制-checkpoint 什么是检查点机制? Spark Streaming 周期性地把应用数据存储到诸如HDFS 或Amazon S3 这样的可靠存储系统 ...
Spark Streaming概念学习系列之Spark Streaming的竞争对手
不多说,直接上干货! Spark Streaming的竞争对手 Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology).这个拓扑将会被提交给集群,由集群中的 ...
恒天云技术分享系列3 – KVM性能调优
恒天云技术分享:http://www.hengtianyun.com/download-show-id-11.html KVM是什么 KVM 是 kernel-based Virtual Machin ...
直通BAT必考题系列：JVM性能调优的6大步骤，及关键调优参数详解
JVM内存调优对JVM内存的系统级的调优主要的目的是减少GC的频率和Full GC的次数. 1.Full GC 会对整个堆进行整理,包括Young.Tenured和Perm.Full GC因为需要对 ...
SparkStreaming性能调优
合理的并行度减少任务启动开销选择合适的batch Duration 内存调优设置合理的cpu数

随机推荐

使用脚本卸载.net framework for mac
官方只提供了安装包,没提供卸载
Phpstudy apache2 配置 https
我tm竟然搞了一下午最终原因是因为443 端口被 SVN服务器占用了一定要查看端口是否被占用太深刻了这次粗心大意 !!! 1:打开PHPstudy php扩展设置,在php_openssl上点 ...
CentOS6.9下NFS配置说明
NFS是Network File System的缩写,即网络文件系统.它的主要功能是通过网络(一般是局域网)让不同的主机系统之间可以共享文件或目录.NFS客户端可以通过挂载(mount)的方式将NFS ...
BZOJ [POI2004]PRZ 状压DP_二进制_骚操作
二进制就是比谁更sao... Code: #include <bits/stdc++.h> #define setIO(s) freopen(s".in"," ...
php第十节课
数据访问面向对象:类:由众多对象抽象出来的对象:由类实例化出来的,任何东西都可以看做对象来研究定义类:class 类名{ 成员变量成员方法} 构造函数:写法特殊执行特殊,对类里面的成员进行初始化 ...
SQL第三节课
常用函数一.数学函数数学函数主要用于处理数字,包括整型.浮点数等. ABS(x) 返回x的绝对值 SELECT ABS(-1) -- 返回1 CEIL(x),CEILING(x) 返回大于或等于x ...
php 微擎
pdo_insert('ewei_shop_member', $data); $my = array('agentid' => '4102'); // pdo_update(表明,'修改的值', ...
修改layui的后台模板的左侧导航栏可以伸缩
原生的左侧导航栏代码: <div class="layui-side layui-bg-black"> <div class="layui-side-s ...
lucene_04_解析语法查询
解析语法查询就是调用方法查询的原始查询例如: 查询所有的查询器的语法为:*:*,因为lucene查询是根据term来做的,既是:key:value类型.*:*表示所有域中的所有值. api调用语法解 ...
POJ 1694 An Old Stone Game
题目: Description There is an old stone game, played on an arbitrary general tree T. The goal is to pu ...

Spark Streaming概念学习系列之SparkStreaming性能调优

SparkStreaming性能调优

Spark Streaming概念学习系列之SparkStreaming性能调优的更多相关文章

随机推荐

热门专题