luigi操作hive表
关于luigi框架下查询hive表的操作
class JoinQuery(HiveQueryTask):
date=luigi.DateParameter()
def hiveconfs(self):
jcs = {}
jcs['mapred.job.name'] = "xxx_xxx_hive_daily_{}_username".format(format_date(self.date))
jcs['mapred.job.queue.name'] = 'root.xxx.xxx'
return jcs def requires(self):
return LogHiveFiles(date=self.date)
def output(self):
return luigi.hdfs.HdfsTarget(hdfs_targets.DailyExprImgHdfsFiles(date=self.date).path,
format=luigi.hdfs.PlainDir)
def query(self):
query="""
INSERT OVERWRITE DIRECTORY '{ot}'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
SELECT * FROM {tb} WHERE date='{dt}' LIMIT 1
""".format(ot=self.output().path,tb=self.input().table,dt=self.input().partition['date'])
return query class recCountStats(luigi.Task):
now = datetime.now()
date = luigi.DateParameter(default=datetime(now.year, now.month, now.day) - timedelta(days=3)) def requires(self):
return JoinQuery(self.date)
if __name__ == '__main__':
luigi.run(main_task_cls=recCountStats)
直接上的代码,luigi框架不多说了,可以看之前的luigi的文章。HiveQueryTask类是封装好的专门用于hive sql的类,就是把hive的query写在程序中,他帮你查。
1.JoinQuery类是直接继承自HiveQueryTask类的,处理Luigi本身就有的requires和output以外,区别于spark任务,不用写main()或run()方法,写query()方法就好。
2.区别于luigi下执行spark任务,执行hive和执行mapreduce比较像,需要定义hiveconf方法,就是程序的配置。里面需要定义程序的名称和跑该程序的队列,切记,写了名称和队列 公司服务器才会接受运行该程序,要不然报错的。
3.关于查询的query语句,Luigi不捕捉查询任务的输出,要用INSERT DIRECTORY系列语句将查询结果持久化,并作为output输出。看代码!INSERT OVERWRITE DIRECTORY +table名 可以把结果写入hdfs表 ,用LOCAL DIRECTORY的话可以写在本地。
4.关于requires函数中的 返回的类,可参考下面这样定义,和hdfs的有一些区别,hdfs的只要一个地址就行了。hive的:
class LogHiveFiles(luigi.ExternalTask):
date = luigi.DateParameter()
def output(self):
return luigi.hive.HivePartitionTarget(table='xxxs_xxx_log_xxx_daily',partition={'date': format_date(self.date)})
用的是HivePartitionTarget类。
luigi操作hive表的更多相关文章
- spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
- spark使用Hive表操作
spark Hive表操作 之前很长一段时间是通过hiveServer操作Hive表的,一旦hiveServer宕掉就无法进行操作. 比如说一个修改表分区的操作 一.使用HiveServer的方式 v ...
- SparkSQL On Yarn with Hive,操作和访问Hive表
转载自:http://lxw1234.com/archives/2015/08/466.htm 本文将介绍以yarn-cluster模式运行SparkSQL应用程序,访问和操作Hive中的表,这个和在 ...
- 基于CDH5.x 下面使用eclipse 操作hive 。使用java通过jdbc连接HIVESERVICE 创建表
基于CDH5.x 下面使用eclipse 操作hive .使用java通过jdbc连接HIVESERVICE 创建表 import java.sql.Connection; import java.s ...
- Hive基础之Hive表常用操作
本案例使用的数据均来源于Oracle自带的emp和dept表 创建表 语法: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name ...
- hive表信息查询:查看表结构、表操作等--转
原文地址:http://www.aboutyun.com/forum.PHP?mod=viewthread&tid=8590&highlight=Hive 问题导读:1.如何查看hiv ...
- hive表信息查询:查看表结构、表操作等
转自网友的,主要是自己备份下 有时候不记得! 问题导读:1.如何查看hive表结构?2.如何查看表结构信息?3.如何查看分区信息?4.哪个命令可以模糊搜索表 1.hive模糊搜索表 show tabl ...
- hive表分区相关操作
Hive 表分区 Hive表的分区就是一个目录,分区字段不和表的字段重复 创建分区表: create table tb_partition(id string, name string) PARTIT ...
- Hive 表操作(HIVE的数据存储、数据库、表、分区、分桶)
1.Hive的数据存储 Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式 存储结构主要包括:数据库.文件.表.试图 Hive默认可以直接加载文本文件(TextFile),还 ...
随机推荐
- ubuntu下让进程在后台运行
(1)输入命令: nohup 你的shell命令 & (2)回车,使终端回到shell命令行: (3)使用第二第三条,完全屏蔽掉信号 用disown -h jobspec来使某个作业忽略HUP ...
- 为什么ArrayList remove报错
不报错 List<String> userNames = new ArrayList<String>() {{ add("Hollis"); add(&qu ...
- Linux中建立软raid
Linux内核中有一个md(multiple devices)模块在底层管理RAID设备,它会在应用层给我们提供一个应用程序的工具mdadm. mdadm用于构建.管理和监视Linux MD设备(即R ...
- asp.net core结合Gitlab-CI实现自动化部署
0.目录 整体架构目录:ASP.NET Core分布式项目实战-目录 一.前言 在之前的文章中写过k8s+Jenkins+GitLab-自动化部署asp.net core项目 的topic,这次讲解一 ...
- I/O 多路复用之select、poll、epoll详解
select,poll,epoll都是IO多路复用的机制.I/O多路复用就是通过一种机制,一个进程可以监视多个描述符,一旦某个描述符就绪(一般是读就绪或者写就绪),能够通知程序进行相应的读写操作.但s ...
- 【51Nod 1238】最小公倍数之和 V3
http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1238 设\(A(n)=\sum\limits_{i=1}^n\frac{ ...
- 我的OI生涯 第一章
第一章 一入电竞深似海 我叫WZY,是TSYZ的一名学生. 2016年7月10日,我进了一个叫做oi的坑. 那时的我不知道什么叫竞赛,不知道什么叫编程,不知道什么是c++. 就记得前一天我特意去图 ...
- BZOJ1001: [BeiJing2006]狼抓兔子 (最小割转最短路)
浅析最大最小定理在信息学竞赛中的应用---周东 ↑方法介绍 对于一个联通的平面图G(满足欧拉公式) 在s和t间新连一条边e; 然后建立一个原图的对偶图G*,G*中每一个点对应原图中每一个面,每一条边对 ...
- 使用openssl生成双向加密证书(转)
要生成证书的目录下建立几个文件和文件夹,有./demoCA/./demoCA/newcerts/./demoCA/private/./demoCA/index.txt (空文件,生成证书时会将数据记录 ...
- UESTC 2015dp专题 E 菲波拉契数制 dp
菲波拉契数制 Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://acm.uestc.edu.cn/#/contest/show/65 Descr ...