hive进阶技巧

1.日期格式转换（将yyyymmdd转换为yyyy-mm-dd）

select from_unixtime(unix_timestamp('20180905','yyyymmdd'),'yyyy-mm-dd')

2..hive去掉字段中除字母和数字外的其它字符

select regexp_replace(a, '[^0-9a-zA-Z]', '') from tbl_name

3.hive解析json字段
content字段存储json {"score":"100","name":"zhou","class":''math"}，若要对json进行解析，则可用以下方式

---解析单个字段

select get_json_object(content,'$.score') ,

           get_json_object(content,'$.name),

           get_json_object(content,'$.class')

 from tbl_name

---解析多个字段可以用json_tuple

select a.*

      ,b.score

      ,b.name

      ,b.class

 from tbl a

lateral view outer json_tuple(a.content,'score', 'name', 'class') b as score,name,class

4.hive 导入数据
若从本地文件系统上传，需要加上local关键字;如果直接从hdfs路径上传，则不加local

load data [local] inpath '/data/monthcard.csv' overwrite into table tbl_name;

5.hive 避免科学计数法

select printf("%.2f",3.428777027500007E7)

6.hive collect_set和lateral view explode用法
原始数据

id1    id2    name

1       1       A

1       1       B

1       1       C

1       2       X

1       2       Y

(1)collect_set

select id1,id2,

collect_set(name) as new_name1,

collect_set(case when id2>1 then name end) as new_name2,

count(name) as cnt

from default.zql_test

group by id1,id2;

---输出结果

OK

id1     id2     new_name1       new_name2       cnt

1       1       ["C","A","B"]   []      3

1       2       ["X","Y"]       ["X","Y"]       2

(2)lateral view explode

select *

from

(

select id1,id2,

collect_set(name) as new_name1,

collect_set(case when id2>1 then name end) as new_name2,

count(name) as cnt

from default. zql_test

group by id1,id2

)t

lateral view explode(new_name1) t as new_type1

lateral view explode(new_name2) t as new_type2

----输出结果

OK

t.id1   t.id2   t.new_name1     t.new_name2     t.cnt   t.new_type1     t.new_type2

1       2       ["Y","X"]       ["Y","X"]       2       Y       Y

1       2       ["Y","X"]       ["Y","X"]       2       Y       X

1       2       ["Y","X"]       ["Y","X"]       2       X       Y

1       2       ["Y","X"]       ["Y","X"]       2       X       X

(3)lateral view explode outer ，加上outer会保留所有记录，两者差异可以参考之前的专题

select *

from

(

select id1,id2,

collect_set(name) as new_name1,

collect_set(case when id2>1 then name end) as new_name2,

count(name) as cnt

from default. zql_test

group by id1,id2

)t

lateral view outer explode(new_name1) t as new_type1

lateral view outer explode(new_name2) t as new_type2

;

----输出结果

OK

t.id1   t.id2   t.new_name1     t.new_name2     t.cnt   t.new_type1     t.new_type2

1       1       ["B","A","C"]   []      3       B       NULL

1       1       ["B","A","C"]   []      3       A       NULL

1       1       ["B","A","C"]   []      3       C       NULL

1       2       ["X","Y"]       ["X","Y"]       2       X       X

1       2       ["X","Y"]       ["X","Y"]       2       X       Y

1       2       ["X","Y"]       ["X","Y"]       2       Y       X

1       2       ["X","Y"]       ["X","Y"]       2       Y       Y

7.hive取前百分之几

---分组内将数据分成两片

ntile(2)over(partition by id order by create_tm)

8.hive返回星期几的方法

---2012-01-01刚好星期日

select pmod(datediff(from_unixtime(unix_timestamp()),'2012-01-01'),7) from default.dual;

--返回值0-6

--其中0代表星期日

9.hive产生uuid

select regexp_replace(reflect("java.util.UUID", "randomUUID"), "-", "");

10.hive中匹配中文

select  regexp '[\\u4e00-\\u9fa5]';

11.hive中regexp_extract的用法
regexp_extract(string subject, string regex_pattern, string index)
说明：抽取字符串subject中符合正则表达式regex_pattern的第index个部分的字符串

第一参数：要处理的字段
第二参数: 需要匹配的正则表达式
第三个参数:
0是显示与之匹配的整个字符串
1 是显示第一个括号里面的
2 是显示第二个括号里面的字段...

举例：

--取一个连续17位为数字的字符串，且两端为非数字

select regexp_extract('1、非订单号(20位):00123456789876543210；

                      2、订单号(17位):12345678987654321；

                      3、其它文字','[^\\d](\\d{17})[^\\d]',0) as s1

, substr(regexp_extract('1、非订单号(20位):01234567898765432100；

                      2、订单号(17位):12345678987654321；

                      3、其它文字','[^\\d](\\d{17})[^\\d]',0),2,17) as s2

,regexp_extract('1、非订单号(20位):00123456789876543210；

                      2、订单号(17位):12345678987654321；

                      3、其它文字','[^\\d](\\d{17})[^\\d]',1) as s3;

链接：https://www.jianshu.com/p/fe1cdd06f5f8

hive进阶技巧的更多相关文章

Hive进阶(下)
Hive进阶(下) Hive进阶(下) Hive的表连接等值连接查询员工信息:员工号.姓名.月薪.部门名称 1.select e.empno,e.ename,e.sal,d.dname2.from ...
Hive进阶(上)
Hive进阶(上) Hive进阶(上) 执行数据导入使用Load语句语法: 1.LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE ...
《前端之路》之 JavaScript 进阶技巧之高阶函数（下）
目录第二章 - 03: 前端进阶技巧之高阶函数一.防篡改对象 1-1:Configurable 和 Writable 1-2:Enumerable 1-3:get .set 2-1:不可扩展对象 ...
【原创】分布式之数据库和缓存双写一致性方案解析(三) 前端面试送命题（二）-callback，promise，generator，async-await JS的进阶技巧前端面试送命题（一）-JS三座大山 Nodejs的运行原理-科普篇优化设计提高sql类数据库的性能简单理解token机制
[原创]分布式之数据库和缓存双写一致性方案解析(三) 正文博主本来觉得,<分布式之数据库和缓存双写一致性方案解析>,一文已经十分清晰.然而这一两天,有人在微信上私聊我,觉得应该要采用 ...
SQL优化之SQL 进阶技巧（下）
上文( SQL优化之SQL 进阶技巧(上) )我们简述了 SQL 的一些进阶技巧,一些朋友觉得不过瘾,我们继续来下篇,再送你 10 个技巧一. 使用延迟查询优化 limit [offset], [r ...
SQL优化之SQL 进阶技巧（上）
由于工作需要,最近做了很多 BI 取数的工作,需要用到一些比较高级的 SQL 技巧,总结了一下工作中用到的一些比较骚的进阶技巧,特此记录一下,以方便自己查阅,主要目录如下: SQL 的书写规范 SQL ...
WPF进阶技巧和实战03-控件（3-文本控件及列表控件）
系列文章链接 WPF进阶技巧和实战01-小技巧 WPF进阶技巧和实战02-布局 WPF进阶技巧和实战03-控件(1-控件及内容控件) WPF进阶技巧和实战03-控件(2-特殊容器) WPF进阶技巧和实 ...
WPF进阶技巧和实战03-控件（4-基于范围的控件及日期控件）
系列文章链接 WPF进阶技巧和实战01-小技巧 WPF进阶技巧和实战02-布局 WPF进阶技巧和实战03-控件(1-控件及内容控件) WPF进阶技巧和实战03-控件(2-特殊容器) WPF进阶技巧和实 ...
一起学Hive——总结常用的Hive优化技巧
今天总结本人在使用Hive过程中的一些优化技巧,希望给大家带来帮助.Hive优化最体现程序员的技术能力,面试官在面试时最喜欢问的就是Hive的优化技巧. 技巧1.控制reducer数量下面的内容是我 ...

随机推荐

一步一步教你实现iOS音频频谱动画（一）
如果你想先看看最终效果再决定看不看文章 -> bilibili 示例代码下载第二篇:一步一步教你实现iOS音频频谱动画(二) 基于篇幅考虑,本次教程分为两篇文章,本篇文章主要讲述音频播放和频谱 ...
批量更新sql
跨库批量更新 UPDATE a.table_1upINNER JOIN ( SELECT user_id, user_org_company_id, FROM b.table_2) AS tmp O ...
12 Windows编程——子窗口和系统内置窗口类“BUTTON”
创建子窗口类,使得子窗口有自己的处理过程. 子窗口类型WS_CHILD不能和WS_POPUP一起使用!为什么子窗口要有自己的处理过程?如果使用主窗口类来创建子窗口,那么子窗口和主窗口将公用窗口处理过程 ...
Linux学习笔记（十四）磁盘管理（二）：格式化、挂载以及Swap分区
一.格式化第一种写法 mkfs.文件系统 [分区名称(设备文件路径)] 例如:对sdb硬盘的第一个分区以ext3文件系统进行格式化第二种写法 mkfs -t 文件系统 [分区名称(设备文件路径) ...
Sonya and Robots
1 #include<iostream> #include<cstdio> #include<algorithm> #include<cstring> ...
Java 基础 - Collection集合通用方法及操作/ArrayList和LinkedList的差别优势 /弃用的Vector
Collection的笔记: /**存储对象考虑使用: * 1.数组, ①一旦创建,其长度不可变!② 长度难于应对实际情况 * 2.Java集合, ①Collection集合: 1.set: 元素无序 ...
Vue-cli中的proxyTable解决开发环境的跨域问题
https://blog.csdn.net/u012149969/article/details/80288126 https://vuejs-templates.github.io/webpack/ ...
hbase实践之写流程拾遗
keyvalue KeyValue中包含了丰富的自我描述信息: KeyValue是支撑"稀疏矩阵"设计的一个关键点:一些Key相同的任意数量的独立KeyValue就可以构成一行数据 ...
BZOJ 3901 棋盘游戏 (找结论+枚举+贪心)
题面略 BZOJ 传送门分析具体分析见 dalao博客妙就妙在当i<x,j<xi<x,j<xi<x,j<x时,(i,j)(i,j)(i,j) ^ (i,x) ...
js查找
//对象克隆 function main_clone(fromObject, toObject) { var copy = toObject || {}; for (var i in fromObje ...

hive进阶 技巧

hive进阶 技巧的更多相关文章

随机推荐

热门专题

hive进阶技巧

hive进阶技巧的更多相关文章