Spark Streaming中动态Batch Size实现初探

本期内容 :

BatchDuration与 Process Time
动态Batch Size

　　Spark Streaming中有很多算子，是否每一个算子都是预期中的类似线性规律的时间消耗呢？

　　例如：join操作和普通Map操作的处理数据的时间消耗是否会呈现出一致的线性规律呢，也就是说，并非数据量规模越大就是简单加大BatchDuration

就可以解决问题的，数据量是一个方面，计算的算子也是一个考量的因素。

　　使用BatchSize来适配我们的流处理程序：

　　　　线上的处理程序越来越重要，流入的数据规模越来越大的时候，传统的一台机器不能够容纳此刻流入的数据并处理此刻流入的数据，所以需要分

　　布式。分布式的流处理程序其根源在于此1秒中流入的数据我们一台机器无法容纳且无法完成及时的处理，也就是大数据，更谈不上实时性处理和在

　　线处理。数据处理的过程中最重要问题是在不同的算子和工作负载对我们处理时间的影响以及这种影响是否是我们预期中的结果。

　　　　目前有很多的计算框架，这些所有的计算框架有一个共同特征，就是在连续不断的流进来的一系列数据中使用MapReduce的思想去处理接收到的

　　数据， MapReduce是一种思想，无论是Hadoop还是Spark都是MapReduce的思想实现，MapReduce的实现有一个很好的方面就是容错性，他有自

　　己的一套完整的容错机制。流处理程序在具体处理线上数据的时候，借助MapReduce容错机制能够快速从错误中恢复的能力。

　　　　构建一套稳定的处理程序，有很多维度需要去考虑，如实时性、波峰，如每秒处理1G的数据，突然一个波峰需要处理100T的数据，此时将如何处

　　理，整个流处理应该怎样去应对这种情况？

　　　　以往的流处理系统中，一种是流处理框架可以动态调整资源，如内存、CPU等资源。另外一种是在来不及处理时使用丢弃部分数据。那如何在保证

　　数据的完整性的情况下，且数据一定会处理。如何应对现实突发的情况，如果直接调整内存、CPU等资源其代价非常大而且也不太好调整。

　　Spark Streaming的处理模型是以Batch为模型然后不断的在Queue中把每个BatchDuration的数据进行排队：

　　　　Spark Streaming的数据一批批的放在队列中，然后一个个的在集群中处理的，无论是数据本身还是元数据，Job都是以队列的方式获取信息来控制整

　　个作业的运行。随着数据规模变的越来越大的时候，并不是简简单单的增加内存、CPU等硬件资源就可以的，因为很多时候并不是线性规律的变化。

　　什么因素导致了Batch处理数据的延时：

　　　　01、接收数据并且把接收到的数据放到Batch待处理的队列中(也就是BatchSize会极大的影响其延时性)

　　　　02、等待时间

　　　　03、处理时间

　　静态处理模型：

　　　　图中的虚线就是安全区域，安全区域就是数据流进来的速度能够及时在这个BatchDuration中被消化。对Reduce与Join的操作进行对比，不同的算子存在不同的

　　线性规律，不是随着数据量的增加呈现线性的处理速度，流处理有很多因素影响 .

　　　　一般使用几个BatchDuration进行流处理，直接配置一些参数，每隔10S中就有一个BatchDuration然后处理，这样的处理方式是不可取的。从上图可以看出，实

　　际不是这样的，随着数据量的改变，原来的数据量运行很好，预期也有评估，如每秒处理100M的数据(单节点)，使用线性方式评估在500M的时候是怎样的，然后就设

　　置相对应的静态模型，是基于你现有的硬件资源(内存、CPU、网络)，这样评估是不准确的，而且很难预测，因为当消费数据的容量的不同很难去预测其运行行为。

　　　　在改变其数据rate时，状态有不稳定性，如果能够改变BatchSize的话其相对稳定，所以需要设计一种算法或者实现，不是去调整内存、CPU等硬件资源，而是调

　　整其Batch的大小，当Batch足够小或者小得适当的时候，应该是个更好的思路，低延时、灵活性、通用性、简单性。

　　　　要完成BatchSize的变化的不断的调整肯定需要对Job信息进行统计，动态的调整这个模式，这个模式就是配置相应的参数。随着处理的不断运行，在下一次运行

　　之前看一下上次统计的信息，是否需要调整我们的模型，但是这样做会比较困难。因为会出现一些非线性的行为，把你认为的线性的资源改变一下就是可以的，处理

　　规模不一样，处理算子不一样，有很多不可预测的因素，需要实现对BatchSize的动态调整。

Spark Streaming中动态Batch Size实现初探的更多相关文章

Spark Streaming揭秘 Day21 动态Batch size实现初探(下)
Spark Streaming揭秘 Day21 动态Batch size实现初探(下) 接昨天的描述,今天继续解析动态Batch size调整的实现. 算法动态调整采用了Fix-point迭代算法, ...
Spark Streaming揭秘 Day20 动态Batch size实现初探(上)
Spark Streaming揭秘 Day20 动态Batch size实现初探(上) 今天开始,主要是通过对动态Batch size调整的论文的解析,来进一步了解SparkStreaming的处理机 ...
Spark Streaming中的操作函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations J ...
spark streaming中维护kafka偏移量到外部介质
spark streaming中维护kafka偏移量到外部介质以kafka偏移量维护到redis为例. redis存储格式使用的数据结构为string,其中key为topic:partition, ...
Spark Streaming中的操作函数讲解
Spark Streaming中的操作函数讲解根据根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transform ...
一文读懂神经网络训练中的Batch Size，Epoch，Iteration
一文读懂神经网络训练中的Batch Size,Epoch,Iteration 作为在各种神经网络训练时都无法避免的几个名词,本文将全面解析他们的含义和关系. 1. Batch Size 释义:批大小, ...
Spark Streaming中向flume拉取数据
在这里看到的解决方法 https://issues.apache.org/jira/browse/SPARK-1729 请是个人理解,有问题请大家留言. 其实本身flume是不支持像KAFKA一样的发 ...
spark streaming中使用flume数据源
有两种方式,一种是sparkstreaming中的driver起监听,flume来推数据:另一种是sparkstreaming按照时间策略轮训的向flume拉数据. 最开始我以为只有第一种方法,但是尼 ...
flink和spark Streaming中的Back Pressure
Spark Streaming的back pressure 在讲flink的back pressure之前,我们先讲讲Spark Streaming的back pressure.Spark Strea ...

随机推荐

『U3D学习』破坏神回忆图<一>任务系统
学习资料:siki老师<泰斗破坏神> 联系QQ:1790555618 功能描述:任务面板内容生成,角色进行任务,自动寻路到指定地点. 从今天起,本人会发学习回忆图,先总结开发阶段功能,后续 ...
redis之（二十一）redis之深入理解Spring Redis的使用
关于spring redis框架的使用,网上的例子很多很多.但是在自己最近一段时间的使用中,发现这些教程都是入门教程,包括很多的使用方法,与spring redis丰富的api大相径庭,真是浪费了这么 ...
ASP.NET Web 应用程序及页面生命周期
以客户端浏览器向 ASP.NET Web 应用程序页面发送请求(Request)为起点,以浏览器收到 Web 服务器的响应(Response)为终点,这一完整的过程被称为"应用程序及页面的生 ...
linux第三方程序移植
摘要:在linux开发过程中经常需要用到第三方的程序,有时需要用到它们的库,有时需要它们生成的可执行文件,如何正确地编译这些第三方的程序,以方便地使用和开发自己需要的程序,将是本文要论述的内容. 1. ...
sokite
<?php interface Proto { //连接 function conn($url); //发送get请求 function get(); //发送post请求 function p ...
makedown使用语法
makedown是一个轻量级的标记语言,目前越来越多的写作爱好者所使用.优点很多,纯文本内容兼容所有文本编辑器.语法简单.轻松导出HTML.PDF和本身.md文件. 1.编辑工具 windows: M ...
correlation filters in object tracking2
http://www.cnblogs.com/hanhuili/p/4281077.html Correlation Filter in Visual Tracking系列二:Fast Visual ...
correlation filters in object tracking
http://www.cnblogs.com/hanhuili/p/4266990.html Correlation Filter in Visual Tracking系列一:Visual Objec ...
MyBatis入门学习教程-Mybatis3.x与Spring4.x整合
一.搭建开发环境 1.1.使用Maven创建Web项目执行如下命令: mvn archetype:create -DgroupId=me.gacl -DartifactId=spring4-myba ...
CSS详解
Web前端开发css基础样式总结颜色和单位的使用颜色用颜色的名字表示颜色,比如:red 用16进制表示演示比如:#FF0000 用rgb数值表示颜色,rgb(红,绿,蓝),每个值都在0-255 ...

Spark Streaming中动态Batch Size实现初探

Spark Streaming中动态Batch Size实现初探的更多相关文章

随机推荐

热门专题