hive 定时加载分区

#!/bin/bash

#每天定时位外部表加载分区

#服务器当天的时间

#加载环境变量

source /etc/profile;

#如果没有指定日期用当前日期如果指定的日期使用指定的日期

echo 'starting...'

if [  -z $1 ]

then

curdate=`date +%Y%m%d`

else

curdate=$1

fi

# alter table click add if not exists partition(logdate='20170821') LOCATION '/maats5/click/logdate=20170821';

#数据库表

tableList="click install register login pay"

#为所有表加载当天的分区

addPartitionOfCurDate_All() {

    for table in $tableList

    do

echo "deal with " $table

        createHdfsDir $table $curdate

	addPartition $table $curdate

    done

}

#判断分区是否存在,如果不存在则创建

createHdfsDir(){

#$1=tablename,$2=curdate

    hdfs dfs -test -d /maats5/$1/logdate=$2

	if [ ! $? -eq 0 ] ;then

	#如果不存在则创建这个文件

         hdfs dfs -mkdir /maats5/$1/logdate=$2

	fi

}

#加载指定表的分区

addPartition(){

#$1=tablename, $2=curdate

 /home/hadoop/apps/hive/bin/hive -e "alter table maats.$1 add if not exists partition(logdate='$2') LOCATION '/maats5/$1/logdate=$2';" 1>/home/hadoop/maats/crontabTask/maatsLogs/crontab_hive.std 2>/home/hadoop/maats/crontabTask/maatsLogs/crontab_hive.err

}

#删除分区

deletePartition(){

 /home/hadoop/apps/hive/bin/hive -e "alter table maats.$1  drop if  exists partition(logdate='$2') " 1>/home/hadoop/maats/crontabTask/maatsLogs/crontab_hive.std 2>/home/hadoop/maats/crontabTask/maatsLogs/crontab_hive.err

}

#执行

addPartitionOfCurDate_All

echo "ending"

hive 定时加载分区的更多相关文章

Flink 中定时加载外部数据
社区中有好几个同学问过这样的场景: flink 任务中,source 进来的数据,需要连接数据库里面的字段,再做后面的处理这里假设一个 ETL 的场景,输入数据包含两个字段 “type, useri ...
Hive如何加载和导入HBase的数据
当我们用HBase 存储实时数据的时候, 如果要做一些数据分析方面的操作, 就比较困难了, 要写MapReduce Job. Hive 主要是用来做数据分析的数据仓库,支持标准SQL 查询, 做数据分 ...
hive加载json数据解决方案
hive官方并不支持json格式的数据加载,默认支持csv格式文件加载,如何在不依赖外部jar包的情况下实现json数据格式解析,本编博客着重介绍此问题解决方案首先创建元数据表: create EX ...
hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...
Linux服务器配置之加载硬盘
Linux服务器配置之加载硬盘 1.修改密码 passwd 2.测试密码是否成功 3.查看硬盘信息 fdisk –l 4.格式化分区 fdisk /dev/vdb 5.查看分区 6.快速格式化/dev ...
Learning Spark中文版--第五章--加载保存数据（2）
SequenceFiles(序列文件) SequenceFile是Hadoop的一种由键值对小文件组成的流行的格式.SequenceFIle有同步标记,Spark可以寻找标记点,然后与记录边界重新 ...
如何每日增量加载数据到Hive分区表
如何每日增量加载数据到Hive分区表 hadoop hive shell crontab 加载数据数据加载到Hive分区表(两个分区,日期(20160316)和小时(10))中每日加载前一天的日志 ...
Hive中数据的加载和导出
原文:http://blog.javachen.com/2014/06/09/hive-data-manipulation-language.html 关于 Hive DML 语法,你可以参考 apa ...
Hive学习之四《Hive分区表场景案例应用案例，企业日志加载》详解
文件的加载,只需要三步就够了,废话不多说,来直接的吧. 一.建表话不多说,直接开始. 建表,对于日志文件来说,最后有分区,在此案例中,对年月日和小时进行了分区. 建表tracktest_log,分隔 ...

随机推荐

客户端用java api 远程操作HDFS以及远程提交MR任务(源码和异常处理)
两个类,一个HDFS文件操作类,一个是wordcount 词数统计类,都是从网上看来的.上代码: package mapreduce; import java.io.IOException; impo ...
hibernate4无法保存数据
hibernate4无法保存数据 author: hiu 以后都发文章我都备注一下作者了,hiu就是我了红色字体更新日期:2014-07-08 初次使用hibernate4,使用getCurrent ...
架构-LAMP特级学习(网站加速解决方案)
1.Squid代理缓存技术 2.页面静态化缓存技术 3.Memcache.Redis等缓存服务器 4.Sphinx搜索加速
ubuntu发热问题的解决——显卡驱动的安装
为了支持自由软件事业,本人作出了“一生中最有意义“的决定:将工作环境从Windows转移到Linux中来!于是装上了ubuntu-10.10,但是用了一小段时间后发现本本发热超大,于是Google百度 ...
设置/修改centos上的swap交换分区的方法
设置centos上的swap交换分区的方法作为linux世界里最稳定的服务器版本,rhas5一直有很大的应用面,之前一直关注的是freebsd,因为应用的需要,特别在配合mysql和oracle上r ...
【java设计模式】之责任链（chain of resposibility）模式
责任链模式,顾名思义,就是一条链.这个链到底是怎么运行的呢?它主要是将能够处理同一类请求的对象连成一条链,所提交的请求沿着链传递,链上的对象逐个判断是否有能力处理该请求,如果能则处理,如果不能则传递给 ...
使用 HTML5 History 新特性增强 Ajax 的体验(转)
一. 场景再现如大家熟知,Ajax 可以实现页面的无刷新操作,但会造成两个与普通页面操作(有刷新地改变页面)有着明显差别的问题—— URL 没有修改以及无法使用前进.后退按钮.例如常见的 Ajax ...
Hadoop命令手册
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html 概述常规选项用户命令 archive distcp fs fsc ...
mysql工作中常见问题
1.Error Code: 1044 - Access denied for user 'root'@'localhost' to database 'information_schema'Query ...
Linux下hosts、host.conf、resolv.conf的区别
/etc/resolv.conf 该文件是DNS域名解析的配置文件,它的格式很简单,每行以一个关键字开头,后接配置参数.resolv.conf的关键字主要有四个,分别是:nameserver #定 ...

hive 定时加载分区

hive 定时加载分区的更多相关文章

随机推荐

热门专题