Spark:spark df插入hive表后小文件数量多，如何合并？

　　在做spark开发过程中，时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题。

一般情况下通过hive的参数设置：

    val conf = new SparkConf().setAppName("MySparkJob")

    //.setMaster("local[1]").setMaster("spark://172.21.7.10:7077").setJars(List("xxx.jar")).set("spark.executor.memory", "10g")

    val sc = new SparkContext(conf)

    val hiveContext = new HiveContext(sc)

    hiveContext.sql("use myhivedb")

    // toDF() method need this line...

    import hiveContext.implicits._

    hiveContext.sql("set hive.mapred.supports.subdirectories=true")

    hiveContext.sql("set mapreduce.input.fileinputformat.input.dir.recursive=true")

    hiveContext.sql("set mapred.max.split.size=256000000")

    hiveContext.sql("set mapred.min.split.size.per.node=128000000")

    hiveContext.sql("set mapred.min.split.size.per.rack=128000000")

    hiveContext.sql("set hive.hadoop.supports.splittable.combineinputformat=true")

    hiveContext.sql("set hive.exec.compress.output=true")

    hiveContext.sql("set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec")

    hiveContext.sql("set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat")

    hiveContext.sql("set hive.merge.mapfiles=true")

    hiveContext.sql("set hive.merge.mapredfiles=true")

    hiveContext.sql("set hive.merge.size.per.task=256000000")

    hiveContext.sql("set hive.merge.smallfiles.avgsize=256000000")

    hiveContext.sql("set hive.groupby.skewindata=true")

通过df.repartition(xxx).persist()来实现小文件合并

但是并不是所有的小文件都会合并的，例如：

val my_df = my_temp1_df.unionAll(my_temp2_df)

my_df.registerTempTable("temp_temphivetable")

hiveContext.sql("insert into temphivetable select * from temp_temphivetable")

// -rwxrwx---+ 3 jc_rc jc_rc_group 187.9 K 2017-06-28 17:58 /my tenant name/myhivedb/temphivetable/part-37944.gz

// -rwxrwx---+ 3 jc_rc jc_rc_group 188.9 K 2017-06-28 17:56 /my tenant name/myhivedb/temphivetable/part-37945.gz

当设置：repartition(1000)时

    // 当设置：repartition(1000)时，

    // -rwxrwx---+  3 jc_rc jc_rc_group     10.9 M 2017-07-01 16:31 /my tenant name/myhivedb/temphivetable/part-00998.gz

    // -rwxrwx---+  3 jc_rc jc_rc_group     10.9 M 2017-07-01 16:31 /my tenant name/myhivedb/temphivetable/part-00999.gz

    val my_df = my_temp1_df.unionAll(my_temp2_df).repartition(1000).persist()

    my_df.registerTempTable("temp_temphivetable")

    hiveContext.sql("insert into temphivetable select * from temp_temphivetable")

当设置：repartition(100)时

    // 当设置：repartition(100)时，

    // -rwxrwx---+  3 jc_rc jc_rc_group    103.0 M 2017-07-01 17:53 /my tenant name/myhivedb/temphivetable/part-00098.gz

    // -rwxrwx---+  3 jc_rc jc_rc_group    103.2 M 2017-07-01 17:53 /my tenant name/myhivedb/temphivetable/part-00099.gz

    val my_df = my_temp1_df.unionAll(my_temp2_df).repartition(1000).persist()

    my_df.registerTempTable("temp_temphivetable")

    hiveContext.sql("insert into temphivetable select * from temp_temphivetable")

hivesql下采用snappy方式压缩并且合并：

 set hive.exec.reducers.bytes.per.reducer=500000000;

 set hive.mapred.supports.subdirectories=true;

 set mapreduce.input.fileinputformat.input.dir.recursive=true;

 set mapred.max.split.size=256000000;

 set mapred.min.split.size.per.node=128000000;

 set mapred.min.split.size.per.rack=128000000;

 set hive.hadoop.supports.splittable.combineinputformat=true;

 set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

 set hive.merge.mapfiles=true;

 set hive.merge.mapredfiles=true;

 set hive.merge.size.per.task=256000000;

 set hive.merge.smallfiles.avgsize=256000000;

 set hive.groupby.skewindata=true;

 set hive.exec.dynamic.partition.mode=nonstrict;

 set hive.exec.parallel=true;

 set hive.exec.parallel.thread.number=32;

 SET hive.exec.compress.output=true;

 SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

 SET mapred.output.compression.type=BLOCK;

 set hive.exec.compress.intermediate=true;

 set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

 set hive.intermediate.compression.type=BLOCK;

使用代码进行重新分区让其合并再写入：

    val aDF =hiveContext.table("info_user").repartition(2).persist()

    aDF.registerTempTable("info_user")

这里也可以是从是hive sql 中转到另外一张表，让后再写入到目标表的方式。

Spark:spark df插入hive表后小文件数量多，如何合并？的更多相关文章

[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子
[Spark][Hive][Python][SQL]Spark 读取Hive表的小例子$ cat customers.txt 1 Ali us 2 Bsb ca 3 Carls mx $ hive h ...
spark相关介绍-提取hive表（一）
本文环境说明 centos服务器 jupyter的scala核spylon-kernel spark-2.4.0 scala-2.11.12 hadoop-2.6.0 本文主要内容 spark读取hi ...
【原创】大叔经验分享（65）spark读取不到hive表
spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport Sp ...
Hive merge（小文件合并）
当Hive的输入由非常多个小文件组成时.假设不涉及文件合并的话.那么每一个小文件都会启动一个map task. 假设文件过小.以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费.甚至 ...
hive优化之小文件合并
文件数目过多,会给HDFS带来压力,并且会影响处理效率,可以通过合并Map和Reduce的结果文件来消除这样的影响: set hive.merge.mapfiles = true ##在 map on ...
HIVE SQL产生的文件数量及参数调优
产生背景:sqoop抽取oracle数据到hive表时,只能写入到固定分区(--hive-partition-key #hive分区字段 --hive-partition-value #hive分区值 ...
Spark SQL解析查询parquet格式Hive表获取分区字段和查询条件
首先说一下,这里解决的问题应用场景: sparksql处理Hive表数据时,判断加载的是否是分区表,以及分区表的字段有哪些?再进一步限制查询分区表必须指定分区? 这里涉及到两种情况:select SQ ...
Hive如何处理小文件问题？
一.小文件是如何产生的 1.动态分区插入数据,产生大量的小文件,从而导致map数量剧增. 2.reduce数量越多,小文件也越多(reduce的个数和输出文件是对应的). 3.数据源本身就包含大量的小 ...
数仓面试高频考点--解决hive小文件过多问题
本文首发于公众号:五分钟学大数据小文件产生原因 hive 中的小文件肯定是向 hive 表中导入数据时产生,所以先看下向 hive 中导入数据的几种方式直接向表中插入数据 insert into ...

随机推荐

在使用mybatis的selectFromExample时出现Invalid bound statement (not found)错误
主要原因:运行项目在构建的时候只会默认的去加载resource资源文件里面的资源,其他地方的配置资源不会加载 .故没有读取到mybatis的MapperXml映射结构如下 ============= ...
NGUI_Font
三.NGUI中的UI字体制作 1.概述: 系统中提供的字体比较少,而UI字体又是使用最为频繁的,不能因为单一的字体而损失用户量,则这个时候我们就可以通过Font Maker进行字体的制作. 2.动态 ...
笔记：XML-解析文档-DOM
要处理XML文档,就要先解析(parse)他,解析器时这样一个程序,读入一个文件,确认整个文件具有正确的格式,然后将其分解成各种元素,使得程序员能够访问这些元素,Java库提供了两种XML解析器: 像 ...
笔记：Hibernate 二级缓存
Hibernate 包括二个级别的缓存,默认的总是启用Session级别的一级缓存,可选的 SessionFactory 级别的二级缓存,Session级别的一级缓存,但应用保存持久化实体.修改持久化 ...
SpringBoot更改HttpMessageConverters使用FastJson出现乱码问题
1.出现问题的现象!如下截图,使用SpringBoot 进行开发,接口返回的内容出现中文乱码? 接口内容想要返回的内容: 页面返回内容: 惊喜不?意外不? 为什么出现这个情况?不例外的话,很多同事都是 ...
学习ASP.NET Core Razor 编程系列三——创建数据表及创建项目基本页面
一.创建脚本工具并执行初始迁移在本节中,您将使用包管理控制台(PMC)来更新数据库: •添加VisualStudio Web代码生成包.这个包是运行脚本引擎所必需的. • 执行Add-Migrati ...
Algorithm --> KMP算法
KMP算法一.传统字符串匹配算法 /* * 从s中第sIndex位置开始匹配p * 若匹配成功,返回s中模式串p的起始index * 若匹配失败,返回-1 */ ) { ; || p.length( ...
JVM学习六：JVM之类加载器之双亲委派机制
前面我们知道类加载有系统自带的3种加载器,也有自定义的加载器,那么这些加载器之间的关系是什么,已经在加载类的时候,谁去加载呢?这节,我们将进行讲解. 一.双亲委派机制 JVM的ClassLoader采 ...
Oracle查询优化改写--------------------操作多个表
一.union all与空字符串二.组合相关行三.in .exists.inter join .left join .right join .full join 之间的区别 'inner joi ...
windows+CMake+mingw 搭建c c++开发环境
layout: post title: "windows+CMake+mingw 搭建c c++开发环境" date: 2018-03-30 22:23:06 tags: wind ...

Spark:spark df插入hive表后小文件数量多，如何合并？

一般情况下通过hive的参数设置：

通过df.repartition(xxx).persist()来实现小文件合并

hivesql下采用snappy方式压缩并且合并：

使用代码进行重新分区让其合并再写入：

Spark:spark df插入hive表后小文件数量多，如何合并？的更多相关文章

随机推荐

热门专题