Spark Streaming 官网上提到的几点调优

总的来说，需要考虑以下两点：

1. 有效地运用集群资源去减少每个批次处理的时间

2. 正确的设置batch size，以使得处理速度能跟上接收速度

一. 为了减少处理时间，主要有以下几个优化点：

1. 接收数据的并行度。

每个InputDStream只创建一个Receiver用于接收数据，如果接收数据是系统的瓶颈，可以创建多个InputDStream。配置不同的InputDStream读取数据源的不同分区。比如原先用一个InputDStream读取Kafka的两个topic的数据，可以拆分成两个InputDStream读取不同的Topic。处理时，把两个InputDStream收到的数据合并成一个。

int numStreams = 5;

List<JavaPairDStream<String, String>> kafkaStreams = new ArrayList<>(numStreams);

for (int i = 0; i < numStreams; i++) {

  kafkaStreams.add(KafkaUtils.createStream(...));

}

JavaPairDStream<String, String> unifiedStream = streamingContext.union(kafkaStreams.get(0), kafkaStreams.subList(1, kafkaStreams.size()));

unifiedStream.print();

2. 阻塞间隔

有一个配置参数：spark.streaming.blockInterval，它的意思是每间隔多少秒后，Spark才把接收到的数据组成数据块存到Spark中。官网推荐的最小值是50ms，默认值200ms。假设实例化InputDStream时设置的Duration(batch interval)为1秒（1000ms），那么任务执行时，总共有 1000 / 200 = 5 个block，每个block将对应一个task。如果task的数量少于每台机器配置的core的数量，则说明资源没有被很好的利用。应减少 spark.streaming.blockInterval 或增加batch interval。

注意：官网并没有说要使得task的数量和core的数量一致。能想到两个的原因：（1）receiver也会占用core （2）driver也会占用core

3. 相对于1中所说的增加receiver，一个可供选择的方案是通过调用 inputStream.repartition(<number of partitions>) 对inputDStream的数据进行repartition。这将使接收到的数据分布到指定数量的其它机器上，以供进一步处理。

4. 处理数据的并行度

对于reduceByKey， reduceByKeyAndWindow，Join 等shuffle操作，默认的并行度由 spark.default.parallelism 控制。可以在shuffle操作中设置partition的数量来覆盖默认值。

5. 数据序列化

在Spark Streaming中，有两类数据会被序列化：

5.1 输入数据。默认情况下，输入数据会以StorageLevel.MEMORY_AND_DISK_SER_2 的方式存储在 executor 的内存中。Receiver会反序列化接收到数据，然后再把它序列化成Spark的序列化格式。这显然会有花销。

5.2 持久化Streaming操作产生的RDD。某些windows操作会持久化需要进行多次处理的数据到内存中，默认的存储方式是StorageLevel.MEMORY_ONLY_SER。

以上两种情况，使用Kyro序列化机制来减少CPU和内存的花销。

6. 启动Task的开销

如果每秒启动的task较多(比如：50个或更高)，那么发送task去workers的开销会较大。通过以下方式减少这个开销：以Standalone模式或 coarse-grained Mesos 模式运行Spark程序。详见： Running on Mesos guide

7. 设置正确的Batch Interval

每个时间间隔提交的job应该能处理完这个时间间隔内收到的数据。可以通过Web UI 去查看批处理的时间是否小于interval

二. 内存调优

Spark Streaming应用程序需要的内存依赖于程序中用到的transformation。比如，你使用了window操作，想要处理最后10分钟的数据，这就要求内存能保存这10分钟的所有数据。虽然默认情况下是，内存存不下后会存到磁盘，但是这样的会比较慢。建议尽量加大内存。

垃圾回收也是需要考虑的一方面。可以考虑以下几点来减少GC的开销：

1. 接收的数据和RDD会默认序列化并持久化。开启Kyro序列化机制可减少内存的使用。设置spark.rdd.compress为TRUE，可减少CPU时间

2. 清除旧的数据。Spark Streaming默认会做这件事。

3. 使用CMS 垃圾收集器。driver端使用 --driver-java-options （ spark-submit的时候）。executor端，使用spark.executor.extraJavaOptions 这个配置

4. 尝试以下2点：1. 使用OFF_HEAP 存储级别 2. 增加executor，减少heap size

总的来说，需要记住以下几点：

1. 一个InputDSteam对应一个receiver， receiver运行在executor上，因此会占用一个core。Receivers以轮询的方式分配到executors中。

2. 每隔block interval的时间就会生成一个block，所以每个batch interval的时间会生成 batch interval / block interval 个block，每个block对应一个task。block会被BlockManager分发到不同的executor上

3. 在batchInterval内，在driver端生成一个RDD，在此期间内生成的blocks是这个RDD的partitions。每个partition是一个task。

4. 较大的blockInterval 意味着较大的data block。较大的 spark.locality.wait 将增加 block 在本地处理的机会。寻找这两个值的平衡点，以使较大的block在本地处理。

5. 可以使用 inputDstream.repartition(n) 来替代设置 batchInterval 和 blockInterval 来获取较好的并行度。但这会产生shuffle的花销。

6. 一次只能处理一个Job。所以当有多个 InputDStream 时，需要先Union两个 InputDStream。

7. Receiver暂时没有暂停的方法。因此当job的处理时间大于 batchInterval 时，receiver 的内存使用将会持续增加，最终导致 BlockNotFoundException 。使用spark.streaming.receiver.maxRate 可以限制 receiver的接收速度

Spark Streaming 官网上提到的几点调优的更多相关文章

Spark 官网提到的几点调优
1. 数据序列化默认使用的是Java自带的序列化机制.优点是可以处理所有实现了java.io.Serializable 的类.但是Java 序列化比较慢. 可以使用Kryo序列化机制,通常比Java ...
Spark Streaming官方文档学习--上
官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ...
Spark Streaming官方文档学习--下
Accumulators and Broadcast Variables 这些不能从checkpoint重新恢复如果想启动检查点的时候使用这两个变量,就需要创建这写变量的懒惰的singleton实例 ...
spark新能优化之shuffle新能调优
shuffle调优参数 new SparkConf().set("spark.shuffle.consolidateFiles", "true") spark. ...
Spark面试题（五）——数据倾斜调优
1.数据倾斜数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈. 数据倾斜俩大直 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十二）Spark Streaming接收流数据及使用窗口函数
官网文档:<http://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example> Sp ...
Spark Streaming的简单介绍
本文讲解Spark流数据处理之Spark Streaming.本文的写作时值Spark 1.6.2发布之际,Spark 2.0预览版也已发布,Spark发展如此迅速,请随时关注Spark Stream ...
Spark调优 | Spark Streaming 调优
Spark调优 | Spark Streaming 调优 1.数据序列化 2.广播大变量 3.数据处理和接收时的并行度 4.设置合理的批处理间隔 5.内存优化 5.1 内存管理 5.2优化策略 5.3 ...
Spark学习之路（八）SparkCore的调优之开发调优
摘抄自:https://tech.meituan.com/spark-tuning-basic.html 前言在大数据计算领域,Spark已经成为了越来越流行.越来越受欢迎的计算平台之一.Spark ...

随机推荐

Unity3D之Mesh（六）绘制扇形、扇面、环形
前言: 绘制了圆,就想到绘制与之相关的几何图形,以便更灵活的掌握Mesh动态创建模型的机制与方法. 一.分析: 首先,结合绘制圆的过程绘制环形: 圆形是由segments个等腰三角形组成的(上一篇中, ...
自定义EL函数、自定义JSTL标签
自定义EL函数 1.做一个类(静态) package com.maya.el; public class ELBiaoDaoShi { public static String TiHuan(Stri ...
javaScript-进阶篇(三)
1.Window对象 window对象是BOM的核心,window对象指当前的浏览器窗口. window对象方法: 2.JavaScript 计时器在JavaScript中,我们可以在设定的时间间隔 ...
关于from..import 与import导入模块问题
问题来源:导入PyQt5里面的模块时老是出错 1.from PyQt5 import QtWidgets.QApplication,QtWidgets.QtDialog #出错2.from PyQt5 ...
数据交换格式XML和JSON对比
1.简介: XML:extensible markup language,一种类似于HTML的语言,他没有预先定义的标签,使用DTD(document type definition)文档类型定义来组 ...
【leetcode刷题笔记】Binary Tree Level Order Traversal II
Given a binary tree, return the bottom-up level order traversal of its nodes' values. (ie, from left ...
c/c++写的比较好的读写配置文件的函数或者类
共用版 .h文件 //---------------------------------------------------------------------------- // 程序名称: ...
luogu2627 修剪草坪
dp[i]表示1~i最大效率记一下前缀和转移就是f[i]=max(f[i],f[j-1]-sum[j])+sum[i] (i-k<=j<=i) 发现括号里的只与j有关开一个单调队列维 ...
服务注册选型比较:Consul vs Zookeeper vs Etcd vs Eureka
zookeeper基于paxos的化简版zab,etcd基于raft算法.consul也是基于raft算法.etcd和consul作为后起之秀,并没有因为已经有了zookeeper而放弃自己,而是采用 ...
Swift错误处理
相对于可选中运用值的存在与缺失来表达函数的成功与失败,错误处理可以推断失败的原因,并传播至程序的其他部分. throws关键词一个函数可以通过在声明中添加throws关键词来抛出错误消息. func ...

Spark Streaming 官网上提到的几点调优

Spark Streaming 官网上提到的几点调优的更多相关文章

随机推荐

热门专题