通过创建临时表合并某一个库的hive小文件

#!/bin/bash

#需要指定hive中的库名

#set -x

set -e

DB=$1

if [ -z $1 ];then

    echo “Usage:$0  DbName”

    exit 1

fi

#注释掉cron对应的计划任务

row=$(sed -n '/sjob_exec.sh/=' /etc/crontab)

sed -i "$row s/^/#/" /etc/crontab

#获取hive表定义

ret=$(sudo -u hdfs hive -e "use ${DB};show tables;"|grep -v _tmp|grep -v importinfo)

for tem in $ret;

do

    echo ${tem}

    sudo -u hdfs hive -e "use ${DB};drop table ${tem}_tmp"

    sudo -u hdfs hive -e "use ${DB};create table ${tem}_tmp_1 as select * from ${tem}"

    sudo -u hdfs hive -e "use ${DB};alter table ${tem} rename to ${tem}_tmp"

    sudo -u hdfs hive -e "use ${DB};alter table ${tem}_tmp_1 rename to ${tem}"

done

impala-shell -q 'invalidate metadata' -i hslave1

#恢复对应的cron任务

row=$(sed -n '/sjob_exec.sh/=' /etc/crontab)

sed -i "$row s/#//" /etc/crontab

通过创建临时表合并某一个库的hive小文件的更多相关文章

GIT 如何合并另一个远程Git仓库的文件到本地仓库里某个指定子文件夹并不丢失远程提交记录？
问题背景: 最近在重新整理手中的一个项目,目前该项目分为PC项目,手机项目,某第三方接口项目,第三方接口服务项目和手机项目因为之前规划的原因,原来的四个项目是分两个解决方案来管理的 ...
hive小文件合并设置参数
Hive的后端存储是HDFS,它对大文件的处理是非常高效的,如果合理配置文件系统的块大小,NameNode可以支持很大的数据量.但是在数据仓库中,越是上层的表其汇总程度就越高,数据量也就越小.而且这些 ...
select into tb_temp2 from tb_temp1 创建临时表实现上一个、下一个功能，使用完毕就删除临时表
好久没有写过Sql了,今天遇到一个问题,业务逻辑是: 一个商品可以属于多个分类,在显示商品详情的时候,要求可以点击“上一个”,“下一个” 查看和该商品在同一个分类下的其他商品,商品具有排序号. 这样我 ...
通过创建临时表合并hive小文件
#!/bin/bash #set -x DB=$1 #获取hive表定义 ret=$(hive -e "use ${DB};show tables;"|grep -v _es|gr ...
mysql 5.7多源复制（用于生产库多主库合并到一个查询从库）
目前我们使用的是主从+分库分表的系统架构,主库有N个分库,从库为多个slave做负载均衡,所以数据库端的架构是下面这样的: 因为差不多有一年半没有专门搞技术为主了,顺带回顾下. 这就涉及到多个主库数据 ...
【MS SQL】把多个数据库合并为一个新的数据库
原文:[MS SQL]把多个数据库合并为一个新的数据库因应工作要求,需要把两个数据库合并成一个库: 一开始使用"导入数据.导出数据和复制数据库"三个工具时,没有达到要的效果. 后 ...
Hadoop MapReduce编程 API入门系列之小文件合并（二十九）
不多说,直接上代码. Hadoop 自身提供了几种机制来解决相关的问题,包括HAR,SequeueFile和CombineFileInputFormat. Hadoop 自身提供的几种小文件合并机制 ...
合并hive/hdfs小文件
磁盘: heads/sectors/cylinders,分别就是磁头/扇区/柱面,每个扇区512byte(现在新的硬盘每个扇区有4K) 文件系统: 文件系统不是一个扇区一个扇区的来读数据,太慢了,所以 ...
Spark:spark df插入hive表后小文件数量多，如何合并？
在做spark开发过程中,时不时的就有可能遇到租户的hive库目录下的文件个数超出了最大限制问题. 一般情况下通过hive的参数设置: val conf = new SparkConf().setAp ...

随机推荐

sqler sql 转rest api 的工具试用
sqler 从开源很快就获取了1k的star,使用起来很方便,而且也很灵活,支持的数据库也比较多. 支持的功能无需依赖,可独立使用: 支持多种数据可类型,包括:SQL Server, MYSQL, ...
What are User and Group Permissions
https://www.linode.com/docs/tools-reference/linux-users-and-groups/ What are User and Group Permissi ...
sql-索引的作用
(一)深入浅出理解索引结构何时使用聚集索引/非聚集索引结合实际,谈索引使用的误区其他书上没有的索引使用经验总结其他注意事项 (二)改善SQL语句 (三)实现小数据量和海量数据的通用分页显示存储 ...
二分查找法(binary_search,lower_bound,upper_bound,equal_range)
binary_search(二分查找) //版本一:调用operator<进行比较 template <class ForwardIterator,class StrictWeaklyCo ...
Linux fdisk普通分区扩容
买了一个orangepi 然后用7.4GB的内存卡,写入了一个lubuntu镜像,用去3.6GB还有3.8GB没有用,因为要编译mt7601u进ubuntu中,需要用到内核文件但是内核压缩包1.2G ...
python之numpy.power()数组元素求n次方
numpy.power(x1, x2) 数组的元素分别求n次方.x2可以是数字,也可以是数组,但是x1和x2的列数要相同. >>> x1 = range(6) >>> ...
subversion与TortoiseSVN的使用
Subversion是一个自由开源的版本控制系统.在Subversion管理下,文件和目录可以超越时空.Subversion将文件存放在中心版本库里,这个版本库很像一个普通的文件服务器,不同的是,它可 ...
mybatis异常：Caused by: java.lang.IllegalArgumentException: Result Maps collection already contains value for。。。。。。
框架环境:ssm 昨天下午技术经理更新了下表结构,多加了一个字段. 之后我根据新的mapper.xml文件写了增删改查的操作.重新启动之后不是这个错就是那个错,一大堆错误,头疼. 像类似于NoSuch ...
piwik高负载加速之切换session存储位置
默认情况下,piwik的session是存储于根目录下面的tmp/sessions/路径下面的.而官方文档里面说,如果由于本地硬盘的原因,这种设置可能会导致系统被变慢,这在高负载系统应用中可能是不可以 ...
SPI初识
SPI初识 1.信息来源 2.需要了解的是SPI(x1,x2,x4)

通过创建临时表合并某一个库的hive小文件

通过创建临时表合并某一个库的hive小文件的更多相关文章

随机推荐

热门专题