如何每日增量加载数据到Hive分区表

hadoop

hive

shell

crontab

加载数据

数据加载到Hive分区表（两个分区，日期（20160316）和小时（10））中

每日加载前一天的日志文件数据到表db_track.track_log

1. 数据存储

数据日志文件，放入某个目录下,每天日志文件放入同一个目录

eg: 20160316 - 目录名称

日志文件数据，每个小时生成一个文件，一天总共有二十四个文件

eg: 2016031820

2. shell脚本编写

负责调度的shell脚本load_tracklogs.sh

注：这里涉及到了两个点：1)for循环 2) linux下字符串的截取${line:0:4} 3) 传递参数到hive的sql脚本

#!/bin/sh

## 环境变量生效

. /etc/profile

## HIVE HOME

HIVE_HOME=/opt/cdh5.3.6/hive-0.13.1-cdh5.3.6

## 日志目录

LOG_DIR=/data/tracklogs

## 目录名称, 依据日期date获取

yesterday=`date -d -1days '+%Y%m%d'`

###

for line in `ls $LOG_DIR/${yesterday}`

do

  echo "loading $line .............."

  #从文件名称中解析出日期和小时

  daily=${line:0:4}${line:4:2}${line:6:2}

  hour=${line:8:2}

  LOAD_FILE=${LOG_DIR}/${yesterday}/${line}

  ###  echo $daily + $hour

  ###  ${HIVE_HOME}/bin/hive -e "LOAD DATA LOCAL INPATH '${LOAD_FILE}' OVERWRITE INTO TABLE db_track.track_log PARTITION(date = '${daily}', hour = '${hour}') ;"

  ${HIVE_HOME}/bin/hive --hiveconf LOAD_FILE_PARAM=${LOAD_FILE} --hiveconf daily_param=${daily} --hiveconf hour_param=${hour} -f /home/hadoop/load_data.sql

done

负责加载数据的sql脚本

注: 怎么在HQL脚本中获取外接传递的参数

LOAD DATA LOCAL INPATH '${hiveconf:LOAD_FILE_PARAM}' OVERWRITE INTO TABLE db_track.track_log PARTITION(date = '${hiveconf:daily_param}', hour = '${hiveconf:hour_param}') ;

制定每天定时执行

可以在当前用户下直接创建：crontab -e

注：crontab中的五个 *号分别代表分，时，日，月，周，下面的例子就是每天晚上1点30运行任务的例子,注意sh命令前一般需要加上绝对路径

# LODAD DATA INTO TRACK_LOG

30 1 * * * /bin/sh /home/hadoop/load_tracklogs.sh

如何每日增量加载数据到Hive分区表的更多相关文章

第2节 hive基本操作：11、hive当中的分桶表以及修改表删除表数据加载数据导出等
分桶表将数据按照指定的字段进行分成多个桶中去,说白了就是将数据按照字段进行划分,可以将数据按照字段划分到多个文件当中去开启hive的桶表功能 set hive.enforce.bucketing= ...
【Win10 应用开发】实现数据的增量加载
今天,老周有小故事讲,国庆期间.有一次老周在某站台上候公交车.老周旁边也站满了人,突然,有一位头发弄得像电线杆的小伙子,不知为何,没有先兆地就大笑起来. 老周先是看了那小伙子一眼,他手上没有拿什么东西 ...
重新想象 Windows 8 Store Apps (54) - 绑定: 增量方式加载数据
[源码下载] 重新想象 Windows 8 Store Apps (54) - 绑定: 增量方式加载数据作者:webabcd 介绍重新想象 Windows 8 Store Apps 之绑定通过实 ...
大数据学习day26----hive01----1hive的简介 2 hive的安装（hive的两种连接方式，后台启动，标准输出，错误输出）3. 数据库的基本操作 4. 建表（内部表和外部表的创建以及应用场景，数据导入，学生、分数sql练习）5.分区表 6加载数据的方式
1. hive的简介(具体见文档) Hive是分析处理结构化数据的工具本质:将hive sql转化成MapReduce程序或者spark程序 Hive处理的数据一般存储在HDFS上,其分析数据底 ...
[每日一题] OCP1z0-047 :2013-08-17 EXTERNAL TABLE――加载数据 ............................56
正确答案:C 一.对答案解释: A. TYPE:有两个选可供选择: 1. ORACLE_LOADER:传统方式,与SQLLDR一样,参数从多,应用较多. 2. ...
第三篇 Integration Services：增量加载-Adding Rows
本篇文章是Integration Services系列的第三篇,详细内容请参考原文. 增量加载是什么增量加载仅加载与先前加载差异的.差异包括:->新增的行->更新的行->删除的行通过 ...
【译】第三篇 Integration Services：增量加载-Adding Rows
本篇文章是Integration Services系列的第三篇,详细内容请参考原文. 增量加载是什么增量加载仅加载与先前加载差异的.差异包括:->新增的行->更新的行->删除的行通过 ...
第五篇 Integration Services：增量加载-Deleting Rows
本篇文章是Integration Services系列的第五篇,详细内容请参考原文. 在上一篇你学习了如何将更新从源传送到目标.你同样学习了使用基于集合的更新优化这项功能.回顾增量加载记住,在SSIS ...
第四篇 Integration Services：增量加载-Updating Rows
本篇文章是Integration Services系列的第四篇,详细内容请参考原文. 回顾增量加载记住,在SSIS增量加载有三个使用案例:1.New rows-add rows to the dest ...

随机推荐

JAVA队列的使用
JAVA队列的使用今天跟大家来看看如何在项目中使用队列.首先我们要知道使用队列的目的是什么?一般情况下,如果是一些及时消息的处理,并且处理时间很短的情况下是不需要使用队列的,直接阻塞式的方法调用就可 ...
【Python】【web.py】python web py入门-4-请求处理（上）
python web py入门-4-请求处理(上) 2017年09月05日 23:07:24 Anthony_tester 阅读数:2907 标签: webpy入门请求处理更多个人分类: Pyth ...
vue中两种路由跳转拼接参数
this.$router.push({name:"Home",query:{id:1,name:2}}) // 取到路由带过来的参数 let routerParams = this ...
python排序函数sort()与sorted()区别
sort是容器的函数:sort(cmp=None, key=None, reverse=False) sorted是python的内建函数:sorted(iterable, cmp=None, key ...
畅通工程&&How Many Tables
http://acm.hdu.edu.cn/showproblem.php?pid=1232 #include <iostream> #include <stdio.h> #i ...
loadrunner 接口性能脚本编写（Get请求和Post请求）
前段时间接触了一下loadrunner的接口性能测试,然后尝试了一下手动编写脚本,毕竟录制这种东西,不是每次都能通的,而且录制下来的脚本,通常是有很多其他杂七杂八的请求夹杂在中间,没有达到真正的压测接 ...
react native android 编译
修改 Maven 仓库地址 React Native 在初始化时会从 jcenter.binary.com 这个地方下载一些东西,网上搜索了一下,好像是在下载 Maven 相关的依赖. 针对全局进行修 ...
mysql进程文件
解决nginx下不能require根目录以外的文件
我们常规的做法是将统一入口文件.css.js这些放在网站根木,其他php文件放到根目录外部,这个时候nginx访问是require不到的,需要设定一下 1.vi /usr/local/nginx/c ...
BabelMap 12.0.0.1 汉化版（2019年3月11日更新）
软件简介 BabelMap 是一个免费的字体映射表工具,可辅助使用<汉字速查>程序. 该软件可使用系统上安装的所有字体浏览 Unicode 中的十万个字符,还带有拼音及部首检字法,适合文献 ...

如何每日增量加载数据到Hive分区表

如何每日增量加载数据到Hive分区表

加载数据

1. 数据存储

2. shell脚本编写

如何每日增量加载数据到Hive分区表的更多相关文章

随机推荐

热门专题