Hive对JSON格式的支持研究
一、背景
JSON是一种通用的存储格式,在半结构化存储中十分常见,部分场景已经开始存在以JSON格式贴源存储的数据,作为下游数据使用方,我们亟需对JSON格式的数据进行加工和处理,以提取出我们需要的数据,以对外提供更完善的数据服务。
经过调研,目前hive已对JSON格式的数据提供了相应的支持,但在一些复杂场景可能无法达到我们的需求以及理想的性能,具体介绍如下。
二、解析JSON对象的方法
(一)get_json_object(string json_string, string path)
- 返回值:String
- 说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回NUll,这个函数每次只能返回一个数据项。
- 测试a:
--1 测试get_json_object()
select get_json_object('{"name":"小明","age":"18"}','$.name');
输出:小明
- 测试b:
数据json.txt
{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}
{"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"}
{"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"}
{"movie":"3408","rate":"4","timeStamp":"978300275","uid":"1"}
{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}
{"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"}
{"movie":"1287","rate":"5","timeStamp":"978302039","uid":"1"}
{"movie":"2804","rate":"5","timeStamp":"978300719","uid":"1"}
{"movie":"594","rate":"4","timeStamp":"978302268","uid":"1"}
create table json(data string);
load data local inpath '/home/hadoop/json.txt' into table json;
select * from json;
select get_json_object(data,'$.movie') as movie from json;
输出:

- 限制
该方法只能返回一个JSON属性的数据,不能同时返回多个。若为了获取多个JSON属性的数据而多次调用get_json_object方法,相当于对JSON数据进行重复多次解析,性能会有所损耗。那么,是否有一个方法能够解析一次JSON数据,返回多个JSON属性的数据呢?有,那就是json_tuple()。
(二)json_tuple(jsonStr, k1, k2, ...)
- 返回值:tuple
- 说明:参数为json字符串和一组键k1,k2,…,返回值的元组。因为可以在一次调用中输入多次键,一次可以解析多个Json字段,因此该方法比get_json_object高效。
- 测试:
select b.b_movie,b.b_rate,b.b_timeStamp,b.b_uid from json a lateral view
json_tuple(a.data,'movie','rate','timeStamp','uid') b as b_movie,b_rate,b_timeStamp,b_uid;
- 限制
该方法和上面介绍的get_json_object()方法都无法对JSON数组进行解析。我们将在第三节对JSON数组的解析进行专题介绍。
(三)自定义函数解析json对象
- 自定义函数
1.
2. package com.data;
3.
4. import org.apache.commons.lang3.StringUtils;
5. import org.apache.hadoop.hive.ql.exec.UDF;
6. import org.json.JSONException;
7. import org.json.JSONObject;
8. import org.json.JSONTokener;
9.
10. /**
11. *
12. * add jar jar/getJsonObjectUDF.jar;
13. * create temporary function getJsonObject as 'com.data.JsonObjectParsing';
14. * Json对象解析UDF
15. * @Author:
16. * @Date: 2020/9/25
17. */
18. public class JsonObjectParsing extends UDF {
19. public static String evaluate(String jsonStr, String keyName) throws JSONException {
20. if(StringUtils.isBlank(jsonStr) || StringUtils.isBlank(keyName)){
21. return null;
22. }
23. JSONObject jsonObject = new JSONObject(new JSONTokener(jsonStr));
24. Object objValue = jsonObject.get(keyName);
25. if(objValue==null){
26. return null;
27. }
28. return objValue.toString();
29. }
30. }
- 测试:
--1 将getJsonObjectUDF.jar上传到hdfs
source ${HADOOP_CLIENT}/bigdata_env
kinit -k etluser/hadoop -t ${WORK_ROOT}/etl_tools/config/etluser.keytab
hadoop fs -rm -f -r /user/etluser/pgm/tempUDF
hadoop fs -mkdir -f -r /user/etluser/pgm/tempUDF
hdsoop fs -put ${WORK_ROOT}/pgm/tempUDF/getJsonObjectUDF.jar /user/etluser/pgm/tempUDF/
--2 创建临时函数getJsonObject()
use udf;
set hive.security.temporary.function.need.admin=false;
create temporary function getJsonObject as 'com.data.JsonObjectParsing' using jar '/user/etluser/pgm/tempUDF/getJsonObjectUDF.jar';
--3 建表db.json
DROP TABLE IF EXISTS DB.JSON;
CREATE TABLE IF NOT EXISTS DB.JSON (
JSON_DATA STRING COMMENT 'json'
)
COMMENT 'hive json'
PARTITIONED BY (pt_dt STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\27'
STORED AS TEXTFILE;
--4 插入测试数据
INSERT INTO TABLE DB.JSON VALUES('{"id":"3","age":"12"}');
--5 使用临时函数getJsonObject()
SELECT getJsonObject(JSON_DATA,'id') as id, getJsonObject(JSON_DATA,'age') as age FROM DB.JSON WHERE pt_dt='2020-09-25';
输出:3 12
三、解析JSON数组的方法
(一)使用Hive自带的函数解析Json数组
说明:Hive的内置的explode函数,explode()函数接收一个 array或者map 类型的数据作为输入,然后将 array 或 map 里面的元素按照每行的形式输出。其可以配合 LATERAL VIEW 一起使用。
测试:
select explode(array('A','B','C'));
输出: A
B
C
select explode(map('A',10,'B',20,'C',30));
输出:A 10
B 20
C 30
这个explode函数和我们解析json数据是有关系的,我们可以使用explode函数将json数组里面的元素按照一行一行的形式输出:
SELECT explode(split(
regexp_replace(
regexp_replace(
'[
{"website":"www.baidu.com","name":"百度"},
{"website":"google.com","name":"谷歌"}
]',
'\\[|\\]',''), --将 Json 数组两边的中括号去掉
'\\}\\,\\{' --将 Json 数组元素之间的逗号换成分号
,'\\}\\;\\{'),
'\\;')); --以分号作为分隔符
输出:{"website":"www.baidu.com","name":"百度"}
{"website":"google.com","name":"谷歌"}
结合 get_json_object 或 json_tuple 来解析里面的字段:
select json_tuple(json, 'website', 'name') from (SELECT explode(split(regexp_replace(regexp_replace('[{"website":"www.baidu.com","name":"百},{"website":"google.com","name":"谷歌"}]', '\\[|\\]',''),'\\}\\,\\{','\\}\\;\\{'),'\\;')) as json) test;
输出:
www.baidu.com 百度
google.com 谷歌
(二)自定义函数解析JSON数组
虽然可以使用Hive自带的函数类解析Json数组,但是使用起来有些麻烦。Hive提供了强大的自定义函数(UDF)的接口,我们可以使用这个功能来编写解析JSON数组的UDF。
- 自定义函数
1.
2. package com.data;
3.
4. import org.apache.hadoop.hive.ql.exec.Description;
5. import org.apache.hadoop.hive.ql.exec.UDF;
6. import org.json.JSONArray;
7. import org.json.JSONException;
8. import java.util.ArrayList;
9.
10.
11. public class JsonArray extends UDF{
12. public ArrayList<String> evaluate(String jsonString) {
13. if (jsonString == null) {
14. return null;
15. }
16. try {
17. JSONArray extractObject = new JSONArray(jsonString);
18. ArrayList<String> result = new ArrayList<String>();
19. for (int ii = 0; ii < extractObject.length(); ++ii) {
20. result.add(extractObject.get(ii).toString());
21. }
22. return result;
23. } catch (JSONException e) {
24. return null;
25. } catch (NumberFormatException e) {
26. return null;
27. }
28. }
29.
30. }
将上面的代码进行编译打包,jar包名为:getJsonArrayUDF.jar
--1 将getJsonArrayUDF.jar上传到hdfs
source ${HADOOP_CLIENT}/bigdata_env
kinit -k etluser/hadoop -t ${WORK_ROOT}/etl_tools/config/etluser.keytab
hadoop fs -rm -f -r /user/etluser/pgm/tempUDF
hadoop fs -mkdir -f -r /user/etluser/pgm/tempUDF
hdsoop fs -put ${WORK_ROOT}/pgm/tempUDF/getJsonArrayUDF.jar /user/etluser/pgm/tempUDF/
--2 创建临时函数getJsonObject()
use udf;
set hive.security.temporary.function.need.admin=false;
create temporary function getJsonArray as 'com.data.JsonArray' using jar '/user/etluser/pgm/tempUDF/getJsonArrayUDF.jar';
--3 使用临时函数getJsonObject()
select explode(getJsonArray('[{"website":"www.baidu.com","name":"百度"},{"website":"google.com"name":"谷歌"}]'));
输出:www.baidu.com 百度
google.com 谷歌
四、对where条件的支持
(一)get_json_object(string json_string, string path)对where条件的支持
- 是否支持:是
- 实验
SELECT b.b_movie,b.b_rate,b.b_timeStamp,b.b_uid from db.json a
lateral view json_tuple(a.json_data, 'movie', 'rate', 'timeStamp', 'uid') b as b_movie,b_rate,b_timestamp,b_uid
where a.pt_dt='2020-09-25'
and get_json_object(a.json_data,'$.movie')='661';
(1) 输出:
661 3 9978302109 1
(2) 源表数据量:9条JSON格式数据,每条JSON数据又4个属性。
(3) 耗时:35.39s
(二)json_tuple(jsonStr, k1, k2, ...)对where条件的支持
- 是否支持:是
- 实验
SELECT b.b_movie,b.b_rate,b.b_timeStamp,b.b_uid from db.json a
lateral view json_tuple(a.json_data, 'movie', 'rate', 'timeStamp', 'uid') b as b_movie,b_rate,b_timestamp,b_uid
where a.pt_dt='2020-09-25'
and b.b_movie='661' and b.b_rate='3';
(1) 输出
661 3 978302109 1
(2) 源表数据量:9条JSON格式数据,每条JSON数据又4个属性。
(3) 耗时:42.422s
五、总结
在一些数据加工场景下,例如,当我们需要获取源表JSON字段中的相关信息时,就需要对该字段的JSON数据进行解析。这时候就十分需要Hive对JSON格式的数据解析提供支持。
目前Hive官方提供了get_json_object();json_tuple();explode();splite();regexp_replace()等函数,运用得当还是能解决不少问题。当然,这些函数的组合使用存在一定的限制性,编码风格也较为复杂,可读性较差;可以考虑使用自建UDF函数的方法,将JSON数据的解析放到Java等高级语言中去实现,简化解析JSON数据时的复杂编码,且能做到组件化复用。
Hive对JSON格式的支持研究的更多相关文章
- mysql 5.7 支持json格式
1.JSON格式的支持:mysql> create table user ( uid int auto_increment, -> data json,primary key(u ...
- ajax访问服务器返回json格式
使用ajax访问服务器返回多条数据,比如返回一个表中的所有数据,页面该如何处理呢?如何获取数据呢?一直不会用ajax返回json格式,今天研究了下,分享给大家~ 首先需要引用服务,点击项目右键,添加引 ...
- flash解析json格式
flash对于json格式的解析在Flash CS6的版本对于json格式的数据提供了支持,用以下方式即可以进行转换: var persons = JSON.parse('[{"name&q ...
- hive中导入json格式的数据(hive分区表)
hive中建立外部分区表,外部数据格式是json的如何导入呢? json格式的数据表不必含有分区字段,只需要在hdfs目录结构中体现出分区就可以了 This is all according to t ...
- MySQL 5.7原生JSON格式支持
在MySQL与PostgreSQL的对比中,PG的JSON格式支持优势总是不断被拿来比较.其实早先MariaDB也有对非结构化的数据进行存储的方案,称为dynamic column,但是方案是通过BL ...
- HIVE json格式数据的处理
今天要处理一个以json格式存储的数据,想要直接把json的各个项的数据存入HIVE表中. HIVE直接读入json的函数有两个: (1)get_json_object(string json_str ...
- 扩展SpringMVC以支持绑定JSON格式的请求参数
此方案是把请求参数(JSON字符串)绑定到java对象,,@RequestBody是绑定内容体到java对象的. 问题描述: <span style="font-size: x-sma ...
- 配置iis支持.json格式的文件
配置iis支持.json格式的文件发现要让IIS支持json文件并不是单纯的添加mime这么简单啊,以下是设置方法:一.IIS 6 1. MIME设置:在IIS的站点属性的HTTP头设置里,选MIME ...
- 配置IIS支持Json格式
配置iis支持.json格式的文件 原文地址:http://blog.eroad.info/iis-suport-json/ 在做easyUI的官方示例的时候 有的例子是直接读取的json文件,但是默 ...
- SpringBoot RestController 同时支持返回xml和json格式数据
@RestController 默认支持返回json格式数据,即使不做任何配置也能返回json数据 当接口需要支持xml或json两种格式数据时应该怎么做呢? 只要引入 Jackson xml的 ma ...
随机推荐
- 【记录】C/C++-关于I/O的坑与教训
吐槽 每每读取字符串时,倘若稍有灵活的操作,总会遇上诡异奇怪的事情.究其原因,就是没完全理解一些基本读写函数的机制.这次做Uva227就把I/O上的问题全暴露出来了.想来还是应该记录一些经验教训. 记 ...
- 华为云windows server 2008 迁机遇到字符串问题
问题 使用主机迁移服务迁移windows server 2008出现问题 2.按照教程安装Windows Agent(Python2)下载后,在源主机上运行agent-start.exe,输入ak后, ...
- H3C S520 V3 端口流量镜像
背景: 最近公司需要采集某工业PLC设备报文,临时查询了一下如何使用H3C交换机配置流量镜像. PLC地址: 192.168.3.213 MAC: e0:dc:a0:5c:47:2f (可通过ARP ...
- Assignment to property of function parameter 'XXX' no-param-reassign 记录
在react项目中写了一个工具方法将两个数组数据进行整合,用了双重for循环,但是在提交代码时报了eslint的no-param-reassign 结果效果是有了,但是报lint错误,图片中已是解决后 ...
- Go配置管理神器—Viper中文教程
Viper中文教程 Viper是适用于Go应用程序的完整配置解决方案.它被设计用于在应用程序中工作,并且可以处理所有类型的配置需求和格式. 安装 go get github.com/spf13/vip ...
- 想查看某些网站源码,结果发现网站F12被禁用,怎么解决?
当我们访问某些网站的时候,发现网站是禁用了F12和右键功能的.比如想保存网页上的一些文字或图片等, 新手不知道怎么破除. 下面分享给大家几种方法:1.打开网页后,鼠标点进浏览器地址栏,再按F12键,就 ...
- 算法图解,关于数组,链表,以及大O表示法
有关数组.链表以及大O表示法 关于数组 [1] 连续性:数组在内存中连续储存,就像是看电影的一群人排排坐. [2] 易读性:数组中的元素可以随意读取. [3] 难改性:由于连续的特性,增减元素都会导致 ...
- 查看当前linux占用的端口号
Linux 查看端口占用情况可以使用 lsof 和 netstat 命令. centos 下无法使用lsof命令:"-bash: lsof: command not found"1 ...
- String常见面试题
第一题:打印的结果是true还是false呢? 在之前我们就说过这题,执行s1时,检查字符串常量池,发现没有"abc",于是创建"abc",执行s2时,接着检查 ...
- DRAM的读写操作、刷新、恢复的原理
这一节湖科大教书匠讲得特别好,原理梳理的很清晰,建议去b站看一看 写这个只为了自己复习方便一点 对读操作会破坏数据的理解 预充电利用列线上的寄生电容,使得每列的电压保持在\(Vcc/2\) 进行读操作 ...