Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

目前平台使用Kafka + Flume的方式进行实时数据接入，Kafka中的数据由业务方负责写入，这些数据一部分由Spark Streaming进行流式计算；另一部分数据则经由Flume存储至HDFS，用于数据挖掘或机器学习。HDFS存储数据时目录的最小逻辑单位为“小时”，为了保证数据计算过程中的数据完整性（计算某个小时目录中的数据时，该目录的数据全部写入完毕，且不再变化），我们在Flume中加入了如下策略：

每五分钟关闭一次正在写入的文件，即新创建文件进行数据写入。

这样的方式可以保证，当前小时的第五分钟之后就可以开始计算上一小时目录中的数据，一定程度上提高了离线数据处理的实时性。

随着业务的增加，开始有业务方反馈：“HDFS中实际被分析的数据量很小，但是Spark App的Task数目却相当多，不太正常”，我们跟进之后，发现问题的根源在于以下三个方面：

（1）Kafka的实时数据写入量比较小；

（2）Flume部署多个实例，同时消费Kafka中的数据并写入HDFS；

（3）Flume每五分钟会重新创建文件写入数据（如上所述）；

这样的场景直接导致HDFS中存储着数目众多但单个文件数据量很小的情况，间接影响着Spark App Task的数目。

我们以Spark WordCount为例进行说明，Spark版本为1.5.1。

假设HDFS目录“/user/yurun/spark/textfile”中存在以下文件：

这个目录下仅三个文件包含少量数据：part-00005、part-00010、part-00015，数据大小均为6 Byte，其余文件数据大小均为0 Byte，符合小文件的场景。

注意：_SUCCESS相当于一个“隐藏”文件，实际处理时通常会被忽略。

常规实现

我们使用SparkContext textFile完成数据输入，应用运行完成之后，通过Spark History Server的页面可以看到：应用执行过程中，会产生一个Job，包含两个Stage，每个Stage包含16个Task，也就是说，Task的总数目为32，如下图所示：

之所以每个Stage包含16个Task，是因为目录中存有16个文本文件（_SUCCESS不参与计算）。

优化实现

在这个优化的版本中，我们使用SparkContext newAPIHadoopFile完成数据输入，需要着重说明一下“org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat”，这个类可以将多个小文件合并生成一个Split，而一个Split会被一个Task处理，从而减少Task的数目。这个应用的执行过程中，会产生两个Job，其中Job0包含一个Stage，一个Task；Job1包含两个Stage，每个Stage包含一个Task，也就是说，Task的总数目为3，如下图所示：

可以看出，通过使用“org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat”可以很大程度上缓解小文件导致Spark App Task数目过多的问题。

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题的更多相关文章

Spark SQL 小文件问题处理
在生产中,无论是通过SQL语句或者Scala/Java等代码的方式使用Spark SQL处理数据,在Spark SQL写数据时,往往会遇到生成的小文件过多的问题,而管理这些大量的小文件,是一件非常头疼 ...
hadoop 小文件挂载小文件对NameNode的内存消耗 HDFS小文件解决方案客户端自身机制 HDFS把块默认复制3次至3个不同节点。
hadoop不支持传统文件系统的挂载,使得流式数据装进hadoop变得复杂. hadoo中,文件只是目录项存在:在文件关闭前,其长度一直显示为0:如果在一段时间内将数据写到文件却没有将其关闭,则若网络 ...
干货！Apache Hudi如何智能处理小文件问题
1. 引入 Apache Hudi是一个流行的开源的数据湖框架,Hudi提供的一个非常重要的特性是自动管理文件大小,而不用用户干预.大量的小文件将会导致很差的查询分析性能,因为查询引擎执行查询时需要进 ...
mapreduce 关于小文件导致任务缓慢的问题
小文件导致任务执行缓慢的原因: 1.很容易想到的是map task 任务启动太多,而每个文件的实际输入量很小,所以导致了任务缓慢这个可以通过 CombineTextInputFormat,解决,主要 ...
Spark优化之小文件是否需要合并?
我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存.Spark的性能,想 ...
数仓面试高频考点--解决hive小文件过多问题
本文首发于公众号:五分钟学大数据小文件产生原因 hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式直接向表中插入数据 insert into ...
XCode编译文件过多导致内存吃紧解决方法
XCode编译文件过多导致内存吃紧解决方法 /Users/~~/Library/Developer/Xcode/DerivedData 1) 然后找到编译文件删除就好了哦快去试试看吧
Spark:spark df插入hive表后小文件数量多，如何合并？
在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题. 一般情况下通过hive的参数设置: val conf = new SparkConf().setAp ...
spark sql/hive小文件问题
针对hive on mapreduce 1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并: 参数详细内容可参考官网:https://cwiki.apache.org/conflue ...

随机推荐

java 函数形参传值和传引用的区别
java方法中传值和传引用的问题是个基本问题,但是也有很多人一时弄不清. (一)基本数据类型:传值,方法不会改变实参的值. public class TestFun { public static v ...
[Cache] C#操作缓存--CacheHelper缓存帮助类（转载）
点击下载 CacheHelper.zip CacheHelper 缓存帮助类 C#怎么操作缓存怎么设置和取缓存数据,都在这个类里面呢下面看一下代码吧 /// <summary> /// ...
MYSQL使用指南(下)
在上篇我们讲了登录.增加用户.密码更改等问题.下篇我们来看看MySQL中有关数据库方面的操作.注意:你必须首先登录到MYSQL中,以下操作都是在MYSQL的提示符下进行的,而且每个命令以分号结束. 一 ...
Oracle 检验身份证是否正确的存储过程
) ) ); ); ); ); ); ); ); ; , , , , , , , , , , , , , , , , , ); ; , ) ); .. loop )) ) ); , )), ), ...
UITabBar-UITabBarItem图片的背景颜色属性和文字的颜色大小设置
UITabBarItem设置的图片选中状态下默认的是蓝色,如何改变它的颜色为图片自带的颜色呢? typedef NS_ENUM(NSInteger, UIImageRenderingMode) { / ...
html-----005
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
JDBC连接池以及动态SQL处理
复习一下: 1.先创建一个properties配置文件 ClasssName=oracle.jdbc.driver.OracleDriver url=jdbc:oracle:thin:@服务器IP:端 ...
java web工程的错误页面的简单配置
jsp页面,本身服务器也会将该页面翻译成一个servlet页面,所以请求该页面就会有可能出现错误的情况,就会出现下面类似的页面这样给客户看到并不友好. 1.jsp页面<%@ page %> ...
jquery中mouseout和mouseleave 事件的区别
今天用jQuery写了一个选项卡的效果,用mouseout事件控制了鼠标的移出,结果发现在移出时div会发生闪动,于是网上各种查资料觉得用mouseleave更合适一些,
一些static_cast const_cast
static_cast:干杂活的,那三个都有各自的专有用途,那三个不做的都由这个转型符来做,只要它能做的,用C语法的强制类型转换运算符也一定能够完成:但话又说回来了,C强制类型转换能做的,它可不一定都 ...

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题

Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题的更多相关文章

随机推荐

热门专题