Spark Streaming中空batches处理的两种方法（转）

原文链接：Spark Streaming中空batches处理的两种方法

　Spark Streaming是近实时(near real time)的小批处理系统。对给定的时间间隔(interval)，Spark Streaming生成新的batch并对它进行一些处理。每个batch中的数据都代表一个RDD，但是如果一些batch中没有数据会发生什么事情呢？Spark Streaming将会产生EmptyRDD的RDD，它的定义如下：

`01`	`package` `org.apache.spark.rdd`

02

`03`	`import` `scala.reflect.ClassTag`

04

`05`	`import` `org.apache.spark.{Partition, SparkContext, TaskContext}`

06

07 /**

`08`	`* An RDD that has no partitions and no elements.`

09 */

`10`	`private[spark]` `class` `EmptyRDD[T:` `ClassTag](sc:` `SparkContext)` `extends` `RDD[T](sc, Nil) {`

11

`12`	`override` `def` `getPartitions:` `Array[Partition]` `=` `Array.empty`

13

`14`	`override` `def` `compute(split:` `Partition, context:` `TaskContext):` `Iterator[T]` `=` `{`

`15`	`throw` `new` `UnsupportedOperationException("empty RDD")`

16 }

17 }

　　可以看到这个RDD并不对任何父RDD有依赖关系，我们不能调用compute方法计算每个分区的数据。EmptyRDD的存在是为了保证Spark Streaming中多个batch的处理是一致的。但是存在EmptyRDD有时候会产生一些问题，比如：如果你想将接收到的Streaming数据写入HDFS中：

`1`	`val` `ssc` `=` `new` `StreamingContext(args(0),"iteblog",Seconds(10))`

`2`	`val` `socketStream` `=` `ssc.socketTextStream("www.iteblog.com",8888)`

`3`	`val` `outputDir` `=` `args(1)`

4

`5`	`socketStream.foreachRDD(rdd` `=> {`

`6`	`rdd.saveAsTextFile(outputDir)`

7 })

　　当你调用foreachRDD的时候如果当前rdd是EmptyRDD，这样会导致在HDFS上生成大量的空文件！这肯定不是我们想要的，我们只想在存在数据的时候才写HDFS，我们可以通过以下的两种方法来避免这种情况：

`1`	`socketStream.foreachRDD(rdd` `=> {`

`2`	`if(rdd.count() !=` `0){`

`3`	`rdd.saveAsTextFile(outputDir)`

4 }

5 })

　　EmptyRDD的count肯定是0，所以这样可以避免写空文件，或者我们也可以用下面方法解决：

`1`	`socketStream.foreachRDD(rdd` `=> {`

`2`	`if(!rdd.partitions.isEmpty){`

`3`	`rdd.saveAsTextFile(outputDir)`

4 }

5 })

　　EmptyRDD是没有分区的，所以调用partitions.isEmpty是true。这样也可以解决上述问题。

　　虽然上面两种方法都可以解决这个问题，但是推荐使用第二种方法。因为第一种方法调用了RDD的count函数，这是一个Action，会触发一次Job的计算，当你的数据量比较大的时候，这可能会带来性能方面的一些影响；而partitions.isEmpty是不需要触发Job的。
　　不过如果你使用的是Sprk 1.3.0，你可以调用isEmpty函数来判断一个RDD是否为空，这个函数是在SPARK-5270引入的。

Spark Streaming中空batches处理的两种方法（转）的更多相关文章

spark streaming 接收kafka消息之一 -- 两种接收方式
源码分析的spark版本是1.6. 首先,先看一下 org.apache.spark.streaming.dstream.InputDStream 的类说明: This is the abstrac ...
hive权威安装出现的不解错误！（完美解决）两种方法都可以
以下两种方法都可以,推荐用方法一! 方法一: 步骤一: yum -y install mysql-server 步骤二:service mysqld start 步骤三:mysql -u root - ...
JAVA 集合 List 分组的两种方法
CSDN日报20170219--<程序员的沟通之痛> [技术直播]揭开人工智能神秘的面纱程序员1月书讯云端应用征文大赛,秀绝招,赢无人机! JAVA 集合 List 分组的两种方法 2 ...
windows下获取IP地址的两种方法
windows下获取IP地址的两种方法: 一种可以获取IPv4和IPv6,但是需要WSAStartup: 一种只能取到IPv4,但是不需要WSAStartup: 如下: 方法一:(可以获取IPv4和I ...
android 之启动画面的两种方法
现在,当我们打开任意的一个app时,其中的大部分都会显示一个启动界面,展示本公司的logo和当前的版本,有的则直接把广告放到了上面.启动画面的可以分为两种设置方式:一种是两个Activity实现,和一 ...
[转载]C#读写txt文件的两种方法介绍
C#读写txt文件的两种方法介绍 by 大龙哥 1.添加命名空间 System.IO; System.Text; 2.文件的读取 (1).使用FileStream类进行文件的读取,并将它转换成char ...
php如何防止图片盗用/盗链的两种方法(转)
图片防盗链有什么用? 防止其它网站盗用你的图片,浪费你宝贵的流量.本文章向大家介绍php防止图片盗用/盗链的两种方法 Apache图片重定向方法设置images目录不充许http访问 Apache服 ...
WPF程序将DLL嵌入到EXE的两种方法
WPF程序将DLL嵌入到EXE的两种方法这一篇可以看作是<Visual Studio 版本转换工具WPF版开源了>的续,关于<Visual Studio 版本转换工具WPF版开源了 ...
MongoDB实现分页（两种方法）
1.插入实验数据偷懒用下samus,100条. ; i < ; i++) { Document doc = new Document(); doc["ID"] = i; d ...

随机推荐

Python写网络爬虫爬取腾讯新闻内容
最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫. Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个Bea ...
Download failed : Oracle JDK 7 is NOT installed,解决oracle jdk7的问题
先了解下概念: jdk(java development kit),就是java的开发工具集,顾名思义就是做开发用的,其中包括javac,也就是java compiler等.jre(java runt ...
转： kali msfvenom生成木马
kali msfvenom生成木马转:https://blog.csdn.net/qq_33391644/article/details/79266724 msfvenom是msfpayload,m ...
如何制作RTS游戏的寻路系统？
Q1:我们在做一个RTS游戏,开始用的是Unity自带的NavMesh的寻路,但发现这个并不适合RTS多人寻路,因为总会出现阻挡和闪跳的问题.看Asset Store上的A* path插件评论说在碰撞 ...
POJ 3735 Training little cats<矩阵快速幂/稀疏矩阵的优化>
Training little cats Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 13488 Accepted: ...
【BZOJ 2656】2656: [Zjoi2012]数列(sequence) （高精度）
2656: [Zjoi2012]数列(sequence) Time Limit: 2 Sec Memory Limit: 128 MBSubmit: 1499 Solved: 786 Descri ...
Codeforces 521 E cycling city
cf的一道题,非常有意思,题目是问图中是否存在两个点,使得这两个点之间有三条路径,而且三条路径没有公共点. 其实就是判断一下是否为仙人掌就行了,如果不是仙人掌的话肯定就存在,题目难在输出路径上,改了半 ...
Codeforces 835 F. Roads in the Kingdom
\(>Codeforces\space835 F. Roads in the Kingdom<\) 题目大意 : 给你一棵 \(n\) 个点构成的树基环树,你需要删掉一条环边,使其变成一颗 ...
UI/GUI/UE/UX/ID/UED/UCD的区别
简述: UI (User Interface):用户界面 UE (User Experience):用户体验 ID (Interaction design):交互设计 UID (User Interf ...
centos 7 修改ssh登录端口
在阿里云上面使用的oneinstack镜像,默认是使用的22端口,每次登录总会发现有人在暴力破解我的服务器,所以想想还是修改一下比较安全. 1.在防火墙打开新的端口 iptables -I INPUT ...

Spark Streaming中空batches处理的两种方法（转）

原文链接：Spark Streaming中空batches处理的两种方法

Spark Streaming中空batches处理的两种方法（转）的更多相关文章

随机推荐

热门专题