Json 格式的数据处理

Json 数据格式是我们比较常用的的一种数据格式,例如埋点数据、业务端的数据、前后端调用都采用的是这种数据格式,所以我们很有必要学习一下这种数据格式的处理方法

准备数据

cat json.data

{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}
{"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"}
{"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"}
{"movie":"3408","rate":"4","timeStamp":"978300275","uid":"1"}
{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}
{"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"}
{"movie":"1287","rate":"5","timeStamp":"978302039","uid":"1"}
{"movie":"2804","rate":"5","timeStamp":"978300719","uid":"1"}
{"movie":"594","rate":"4","timeStamp":"978302268","uid":"1"}

创建hive表并且加载数据

create table ods.ods_json_data(text string);
load data local inpath "/Users/XXX/workspace/hive/json.data" overwrite into table ods.ods_json_data;

get_json_object 和 json_tuple 函数

json_tuple 不支持json 的嵌套处理,但是支持一次性获取多个顶级的key对应的值

get_json_object 不支持一次获取多个值,但是支持复杂json 的处理

get_json_object()

用法:get_json_object(string json_string, string path) 前面我们介绍过如何查看函数的用法desc function get_json_object

返回值:String

说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回NUll,这个函数每次只能返回一个数据项。

具体示例: get_json_object(value,’$.id’)

select get_json_object(text,"$.movie") from ods.ods_json_data;

这个函数的不足之处是,它只能返回一个值,就是我们不能一次性从json 中提取多个值,如果要提取多个值的话,就要多次调用这个函数,但是我们下面介绍的json_tuple 就可以,但是这不是说这个函数不强或者怎么样,记住这个函数的api 可以帮你节约很多时间

json_tuple

用法:json_tuple(jsonStr, p1, p2, ..., pn) 整理的pn 就是我们要提取的键

返回值:tuple(v1,...vn) 这里的返回值v1 ... vn 和 键p1 .... pn 是相对应的

select json_tuple(text,'movie','rate','timeStamp','uid') from ods.ods_json_data;

json_tuple相当于get_json_object的优势就是一次可以解析多个Json字段

例子演示

1. 嵌套json 的处理

前面我们说了json_tuple不支持嵌套JSON 的处理

select get_json_object('{"movie":"594","rate":"4","timeStamp":"978302268","uid":"1","info":{"name":"天之骄子"}}',"$.info.name")
select json_tuple('{"movie":"594","rate":"4","timeStamp":"978302268","uid":"1","info":{"name":"天之骄子"}}',"info.name")

2. Json数组解析(get_json_object 实现)

SELECT get_json_object('[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]', '$.[0].website'), get_json_object('[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]', '$.[1].website');

这个时候时候你发现我提取的都是json 数组中的website,有没有什么简单的办法呢,理论上get_json_object 只能有一个返回值,无论如何都需要写多个,那你有没有想过一个问题,我要是这个数组里面有100个元素都是json,我需要每一个json 的website 那我是不是需要写100次了,这个时候你要是仔细阅读这个函数的api 的话,你就会发现了另外一个符号*

SELECT get_json_object('[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]', '$.[*].website')

这下你知道了,get_json_object 是只能返回一个元素,不是只能返回一个字符串,上面本来就是一个json 数组,那要是我们是从json 里面解析出来的数组怎么处理呢?

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info');

需要注意下面这样操作之后你拿到的就是一个json 字符串了,这下你就可以按照上面的方式再处理一次了

select get_json_object (get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info' ),'$.[1].website');

但是有时候我们希望直接获取,而不是通过这样嵌套的方式,这个时候其实就是将上面的嵌套的get_json_object函数的path 参数进行组合

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info[1].website');

这个时候如果我们再上 * 进行加持,那就很简单了

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info[*].website');

其实到这里我们学习了指定一个数组的某个下标获取一个元素,指定* 获取全部元素,那就如我就想获取前三个或者偶数个或者奇数个呢,哈哈,如果你回过头去看api 你就是知道了提供了一个Union operator,指定任意你想组合的下标即可,获取

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"}]}', '$.info[0,1].website');

下面我们尝试获取一下偶数个,或者奇数个或者是一定范围内的奇数个或者偶数个,其实就是上面提供的数组切片,你可以参考api 进行使用

SELECT get_json_object('{"info":[{"website":"www.ikeguang.com","name":"我的生活记忆"},{"website":"beian.ikeguang.com","name":"备案"},{"website":"www.ikeguang2.com","name":"我的生活记忆"}]}', '$.info[0:2:2].website');

但是我尝试了一下,发现这个功能有bug,不能做到切片的效果,每次都是全部返回

SELECT get_json_object('{"info":[
{"website":"www.ikeguang.com","name":"我的生活记忆"},
{"website":"beian.ikeguang.com","name":"备案"},
{"website":"www.ikeguang2.com","name":"我的生活记忆"}]}', '$.info[0:2:2].website');

加载JSON 数据

对于上面json.data 的数据,我们能不能在load 数据到hive 的时候就处理,而不是load 完之后再到使用的时候去处理,尤其是针对这种嵌套结构不是很复杂的这种json 格式

create table ods.ods_json_parse_data(
movie string,
rate string,
`timeStamp` string,
uid string)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS TEXTFILE;
load data local inpath "/Users/liuwenqiang/workspace/hive/json.data" overwrite into table ods.ods_json_parse_data;

这种方法需要注意的是你的数据类型和字段名称都要匹配,否则就会报错或者不能获取到值,那要是复杂一点的嵌套结构呢,其实也可以,在上面的数据基础上添加了一个嵌套的字段也是可以的

{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1","info":{"name":"天之骄子"}}
create table ods.ods_json_parse_data2(
movie string,
rate string,
`timeStamp` string,
uid string,
info map<string,string>)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS TEXTFILE;
load data local inpath "/Users/liuwenqiang/workspace/hive/json.data" overwrite into table ods.ods_json_parse_data2;

总结

  1. get_json_object 和 json_tuple 函数的使用场景和其优缺点
  2. 如果json 格式比较简单,那么可以在建表加载数据的时候就可以将json 处理掉,如果比较复杂也可以再加载的时候解析一部分,然后再通过SQL 进行解析
  3. 也可以尝试写一些UDF 函数来处理JSON

关注公众号:大数据技术派,回复"资料",领取1024G资料。

Hive处理Json数据的更多相关文章

  1. hive 存储,解析,处理json数据

    hive 处理json数据总体来说有两个方向的路走 1.将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tu ...

  2. hive加载json数据解决方案

    hive官方并不支持json格式的数据加载,默认支持csv格式文件加载,如何在不依赖外部jar包的情况下实现json数据格式解析,本编博客着重介绍此问题解决方案 首先创建元数据表: create EX ...

  3. 【spark】文件读写和JSON数据解析

    1.读文件 通过 sc.textFile(“file://") 方法来读取文件到rdd中. val lines = sc.textFile("file://")//文件地 ...

  4. hive之Json解析(普通Json和Json数组)

    一.数据准备 现准备原始json数据(test.json)如下: {"movie":"1193","rate":"5", ...

  5. spark SQL (五)数据源 Data Source----json hive jdbc等数据的的读取与加载

    1,JSON数据集 Spark SQL可以自动推断JSON数据集的模式,并将其作为一个Dataset[Row].这个转换可以SparkSession.read.json()在一个Dataset[Str ...

  6. Hive解析Json数组超全讲解

    在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析.接下来就聊聊Hive中是如何 ...

  7. 使用TSQL查询和更新 JSON 数据

    JSON是一个非常流行的,用于数据交换的文本数据(textual data)格式,主要用于Web和移动应用程序中.JSON 使用“键/值对”(Key:Value pair)存储数据,能够表示嵌套键值对 ...

  8. Hive读取外表数据时跳过文件行首和行尾

    作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自 ...

  9. 利用Python进行数据分析(2) 尝试处理一份JSON数据并生成条形图

    一.JSON 数据准备 首先准备一份 JSON 数据,这份数据共有 3560 条内容,每条内容结构如下: 本示例主要是以 tz(timezone 时区) 这一字段的值,分析这份数据里时区的分布情况. ...

随机推荐

  1. Fastjson中getJSONObject()与getJSONArray()的使用

    测试JSON串: { "package": { "List1": { "errorCode": "0", "e ...

  2. 力扣 - 剑指 Offer 45. 把数组排成最小的数

    题目 剑指 Offer 45. 把数组排成最小的数 思路1 将整数数组转化成字符串数组 然后使用Arrays工具类的sort方法帮助我们排序 代码 class Solution { public St ...

  3. ORA-19815: WARNING: db_recovery_file_dest_size闪回区爆满问题处理

    问题描述:有一个数据库起不来了,根据层层排查,是因为归档设置在了闪回区,文件的大小已经超出了闪回区限制.最后直接给数据库拖挂 环境:windows server2012 , oracle 19c,单机 ...

  4. 【数据结构与算法Python版学习笔记】树——二叉查找树 Binary Search Tree

    二叉搜索树,它是映射的另一种实现 映射抽象数据类型前面两种实现,它们分别是列表二分搜索和散列表. 操作 Map()新建一个空的映射. put(key, val)往映射中加入一个新的键-值对.如果键已经 ...

  5. 安装pytorch后import torch显示no module named 'torch'

    问题描述:在pycharm终端里通过pip指令安装pytorch,显示成功安装但是python程序和终端都无法使用pytorch,显示no module named 'torch'. 起因:电脑里有多 ...

  6. Elasticsearch 中为什么选择倒排索引而不选择 B 树索引

    目录 前言 为什么全文索引不使用 B+ 树进行存储 全文检索 正排索引 倒排索引 倒排索引如何存储数据 FOR 压缩 RBM 压缩 倒排索引如何存储 字典树(Tria Tree) FST FSM 构建 ...

  7. 混合开发框架Flutter

    Flutter开发简介与其他的混合开发的对比 为什么要使用Flutter? 跨平台技术简介 Hybrid技术简介 QT简介 Flutter简介 为什么要使用Flutter? Flutter有什么优势? ...

  8. FastAPI 学习之路(二十九)使用(哈希)密码和 JWT Bearer 令牌的 OAuth2

    既然我们已经有了所有的安全流程,就让我们来使用 JWT 令牌和安全哈希密码让应用程序真正地安全. 关于 JWT 它是一个将 JSON 对象编码为密集且没有空格的长字符串的标准.字符串看起来像这样: e ...

  9. pwn200,一道不完全考察ret2libc的小小pwn题

    pwn200 ---XDCTF-2015 每日一pwn,今天又做了一个pwn,那个pwn呢???攻防世界的进阶区里的一道小pwn题,虽然这个题考察的知识不多,rop链也比较好构建,但是还是让我又学到了 ...

  10. Linux入门所必备的Linux命令和C语言基础

    文件和目录(底部有视频资料) cd /home 进入 '/ home' 目录' cd - 返回上一级目录 cd -/- 返回上两级目录 cd 进入个人的主目录 cd ~user1 进入个人的主目录 c ...