Hive：解决Hive创建文件数过多的问题

　　今天将临时表里面的数据按照天分区插入到线上的表中去，出现了Hive创建的文件数大于100000个的情况，我的SQL如下：

hive> insert overwrite table test partition(dt)

> select * from iteblog_tmp;

iteblog_tmp表里面一共有570多G的数据，一共可以分成76个分区，SQL运行的时候创建了2163个Mapper，0个Reducers。程序运行到一般左右的时候出现了以下的异常：

[Fatal Error] total number of created files now is 100385, which exceeds 100000. Killing the job.

　　并最终导致了SQL的运行失败。这个错误的原因是因为Hive对创建文件的总数有限制（hive.exec.max.created.files），默认是100000个，而这个SQL在运行的时候每个Map都会创建76个文件，对应了每个分区，所以这个SQL总共会创建2163 * 76 = 164388个文件，运行中肯定会出现上述的异常。为了能够成功地运行上述的SQL，最简单的方法就是加大hive.exec.max.created.files参数的设置。但是这有个问题，这会导致在iteblog中产生大量的小文件，因为iteblog_tmp表的数据就570多G，那么平均每个文件的大小=570多G / 164388 = 3.550624133148405MB，可想而知，十万多个这么小的小文件对Hadoop来说是多么不好。那么有没有好的办法呢？有！

　　我们可以将dt相同的数据放到同一个Reduce处理，这样最多也就产生76个文件，将dt相同的数据放到同一个Reduce可以使用DISTRIBUTE BY dt实现，所以修改之后的SQL如下：

hive> insert overwrite table test partition(dt)

> select * from iteblog_tmp

> DISTRIBUTE BY dt;

　　修改完之后的SQL运行良好，并没有出现上面的异常信息，但是这里也有个问题，因为这76个分区的数据分布很不均匀，有些Reduce的数据有30多G，而有些Reduce只有几K，直接导致了这个SQL运行的速度很慢！

　　能不能将570G的数据均匀的分配给Reduce呢？可以！我们可以使用DISTRIBUTE BY rand()将数据随机分配给Reduce，这样可以使得每个Reduce处理的数据大体一致。我设定每个Reduce处理5G的数据，对于570G的数据总共会起110左右的Reduces，修改的SQL如下：

hive> set hive.exec.reducers.bytes.per.reducer=5120000000;

hive> insert overwrite table test partition(dt)

> select * from iteblog_tmp

> DISTRIBUTE BY rand();

这个SQL运行的时间很不错，而且生产的文件数量为Reduce的个数*分区的个数，不到1W个文件。

Hive：解决Hive创建文件数过多的问题的更多相关文章

hive异常：创建MySQL时Specified key was too long; max key length is 1000 bytes
2015-11-13 14:44:44,681 ERROR [main]: DataNucleus.Datastore (Log4JLogger.java:error(115)) - An excep ...
Hive(六)hive执行过程实例分析与hive优化策略
一.Hive 执行过程实例分析 1.join 对于 join 操作:SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.useri ...
Hive 文件格式 & Hive操作（外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制）
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语 ...
（hive）hive优化（转载）
1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析: 它可以使已经存储的数据结构化: 可以直接访问存储在Apac ...
ubuntu下搭建hive(包括hive的web接口)记录
Hive版本 0.12.0(独立模式) Hadoop版本 1.12.1 Ubuntu 版本 12.10 今天试着搭建了hive,差点迷失在了网上各种资料中,现在把我的经验分享给大家,亲手实践过,但未必 ...
Linux下查看某个进程打开的文件数-losf工具常用参数介绍
Linux下查看某个进程打开的文件数-losf工具常用参数介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在linux操作系统中,一切皆文件.通过文件不仅仅可以访问常规数据,还 ...
Hive记录-Hive调优
1.Join优化 a.map join b.reduce join 小表为驱动表,或直接将小表加载到内存,做map端join,它的关键字为/*+MAP JOIN(t1)*/ 如果想自动开启map端Jo ...
Hive记录-Hive on Spark环境部署
1.hive执行引擎 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on ...
Hive之 hive的三种使用方式（CLI、HWI、Thrift）
Hive有三种使用方式——CLI命令行,HWI(hie web interface)浏览器以及 Thrift客户端连接方式. 1.hive 命令行模式直接输入/hive/bin/hive的执行程 ...

随机推荐

使用dstat命令的插件查看mysql的io状态
使用dstat竟然还可以查看mysql的状态, man dstat之后发现的,原来在/usr/share/dstat目录下藏有很多python脚本作为插件帮助dstat搜集各类信息. 不过通常有可能会 ...
Effective Java 第三版——51. 仔细设计方法签名
Tips 书中的源代码地址:https://github.com/jbloch/effective-java-3e-source-code 注意,书中的有些代码里方法是基于Java 9 API中的,所 ...
2. RNN神经网络模型的不同结构
1. RNN神经网络模型原理 2. RNN神经网络模型的不同结构 3. RNN神经网络-LSTM模型结构 1. 前言 RNN( Recurrent Neural Network 循环(递归)神经网络) ...
linux下安装Oracle时交换空间不足的解决方法
摘:linux下安装Oracle时交换空间不足的解决方法 linux上安装Oracle时交换空间不足的解决办法增加交换空间有两种方法: 严格的说,在系统安装完后只有一种方法可以增加swap,那就是本 ...
自定义progressdialog，改善用户体验
自定义progressdialog,改善用户体验
c#.net基础
值类型:值类型的实例一般在线程的栈上分配引用类型:引用类型的实例在线程的托管堆上分配引用类型变量的Equals比较的是二者的引用地址而不是内部的值,值类型变量的Equals方法比较的是二者的值. ...
github管理开发代码流程
首先.通过github网站新建一个仓库,得到仓库地址 https://github.com/piercalex/a.git 接着回到客户端,打开git shell: //在客户端配置账户信息 git ...
Angular4学习笔记（八）- ng-content
内容投影 ng-content ng-content是一个占位符,有些类似于router-outlet. 以前举の例子,父组件包含子组件都是直接指明子组件的selector,比如子组件的selecto ...
Win 10来袭，人工智能女将打头阵
7月1日,微软小冰身"考官",其姐姐微软小娜(Cortana)解锁"科技动态"功能,为即将来临的Win 10打头阵. 中国IT产业界从来没有见过这样的阵势,难于 ...
SpringBoot（十七）-- 定时任务
日常开发中,经常会使用定时任务来执行跑批,springboot默认已经帮助我们整合了定时任务. 参考:https://blog.csdn.net/u013845177/article/details/ ...

Hive：解决Hive创建文件数过多的问题

Hive：解决Hive创建文件数过多的问题的更多相关文章

随机推荐

热门专题