hive之案例分析(grouping sets，lateral view explode, concat

有这样一组搜索结果数据：

租户,平台, 登录用户, 搜索关键词, 搜索的商品结果List

{"tenantcode":"0000001", "platform":"IOS","loginName":"13111111111", "keywords":"手机","goodsList":[{"skuCode":"sku00001","skuName":"skuname1","spuCode":"spuCode1","spuName":"spuName1"},{"skuCode":"sku00002","skuName":"skuname2","spuCode":"spuCode2","spuName":"spuName2"}]}

{"tenantcode":"0000001", "platform":"IOS","loginName":"13111111111", "keywords":"外国手机","goodsList":[]}

{"tenantcode":"0000001", "platform":"IOS","loginName":"13111111112", "keywords":"手机壳","goodsList":[{"skuCode":"sku00001","skuName":"skuname1","spuCode":"spuCode1","spuName":"spuName1"},{"skuCode":"sku00003","skuName":"skuname2","spuCode":"spuCode2","spuName":"spuName2"}]}

现在需要统计每个商品被哪些关键词搜索到，最终结果如下：

这里最关键的是sku对应到命中的关键词：

操作步骤1:

将给出的数据goodslist一列转为多行结构如下，重点用到了lateral view explode来解析。

    select tenantcode,

        nvl(platform,0) as platform,

        keywords,

        'day' as dim_code,

        '' as dim_value,

        gl['skucode'] as skucode,

        gl['skuname'] as skuname,

        gl['spucode'] as spucode,

        gl['spuname'] as spuname

    from dw_mdl.m_search_result2

    lateral view explode(goodsList) gl as gl

    where dt = '';

显示如下：

操作步骤2:

根据商品，汇总关键词列，这里考虑到平台，时间维度等。

grouping sets 分组汇总数据

collect_set 多行合并并且去重

collect_list 多行合并不去重

with tmp_a as (

    select tenantcode,

        nvl(platform,0) as platform,

        keywords,

        'day' as dim_code,

        '' as dim_value,

        gl['skucode'] as skucode,

        gl['skuname'] as skuname,

        gl['spucode'] as spucode,

        gl['spuname'] as spuname

    from dw_mdl.m_search_result2

    lateral view explode(goodsList) gl as gl

    where dt = ''

)

select tenantcode,

    nvl(platform,'all') as platform,

    skucode,

    dim_code,

    dim_value,

    count(skuname) as search_times,

    collect_set(keywords) as keywords

from tmp_a

group by tenantcode,platform,skucode,dim_code,dim_value

grouping sets((tenantcode,platform,skucode,dim_code,dim_value),(tenantcode,skucode,dim_code,dim_value))

操作步骤3:

数组转字符串： concat_ws('分隔符',数组)

with tmp_a as (

    select tenantcode,

        nvl(platform,0) as platform,

        keywords,

        'day' as dim_code,

        '' as dim_value,

        gl['skucode'] as skucode,

        gl['skuname'] as skuname,

        gl['spucode'] as spucode,

        gl['spuname'] as spuname

    from dw_mdl.m_search_result2

    lateral view explode(goodsList) gl as gl

    where dt = ''

),

tmp_b as (

    select tenantcode,

        nvl(platform,'all') as platform,

        skucode,

        dim_code,

        dim_value,

        count(skuname) as search_times,

        concat_ws(',',collect_set(keywords)) as keywords

    from tmp_a

    group by tenantcode,platform,skucode,dim_code,dim_value

    grouping sets((tenantcode,platform,skucode,dim_code,dim_value),(tenantcode,skucode,dim_code,dim_value))

)

select * from tmp_b;

是不是太简单了。

hive之案例分析(grouping sets，lateral view explode, concat_ws)的更多相关文章

Hive lateral view explode
select 'hello', x from dual lateral view explode(array(1,2,3,4,5)) vt as x 结果是: hello 1 hello 2 ...
hive lateral view 与 explode详解
ref:https://blog.csdn.net/bitcarmanlee/article/details/51926530 1.explode hive wiki对于expolde的解释如下: e ...
hive splict, explode, lateral view, concat_ws
hive> create table arrays (x array<string>) > row format delimited fields terminated by ...
hive 使用笔记（table format；lateral view）
1. create table 创建一张目标表,指定分隔符和存储格式: create table tmp_2 (resource_id bigint ,v int) ROW FORMAT DELIMI ...
hive 使用笔记（table format；lateral view横表转纵表）
1. create table 创建一张目标表,指定分隔符和存储格式: create table tmp_2 (resource_id bigint ,v int) ROW FORMAT DELIMI ...
hive中的lateral view 与 explode函数的使用
hive中的lateral view 与 explode函数的使用背景介绍: explode与lateral view在关系型数据库中本身是不该出现的. 因为他的出现本身就是在操作不满足第一范式的数 ...
【Hive学习之六】Hive Lateral View &视图&索引
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...
hive grouping sets 实现原理
先下结论: 看了hive 1.1.0 grouping sets 实现(从源码及执行计划都可以看出与kylin实现不一样),(前提是可累加,如sum函数)他并没有像kylin一样先按照group by ...
【hive】lateral view的使用
当使用UDTF函数的时候,hive只允许对拆分字段进行访问的例如: select id,explode(arry1) from table; —错误会报错FAILED: SemanticExcep ...

随机推荐

centos中添加php扩展pdo_mysql步骤
本文内容是以 CentOS 为例,红帽系列的 Linux 方法应该都是如此,下面就详细说明步骤,在这里严重鄙视哪些内容??隆⑺档脑悠咴影说挠泄 PDO 编译安装的文章. 1.进入 PHP 的软件包 p ...
Eclipse自己定义keystore
首先新建一个自己的***.keystore.(假设没有,新建过程中參考下面设置) 改动keystorepassword的命令(keytool为JDK自带的命令工具,my.keystore为自己的文件名 ...
Manning Hadoop in Practice 翻译【6.2.2】
不是从第一章开始. 6.2.2 Map的困境技巧 29 鉴别map阶段的数据差异问题数据差异是非常常见的.在map阶段,数据差异主要以少量不可以分割的大文件或者大量小文件为代表. 问题你想要确认 ...
jquery判断选择元素是否存在
有时候我们需要对jquery选择器选中的元素进行判断是否存在,如果存在才进行某些操作,不存在就不进行,那么如何判断元素是否存在,代码如下: //判断是否存在特定ID值的元素 ){ alert(&quo ...
Android开发和调试必备工具-SDK Tools
原文链接:http://android.eoe.cn/topic/android_sdk SDK Tools是Android SDK的一个可下载部分,它包括Android SDK的开发和调试的所有工具 ...
关于Verilog中的几种赋值语句
1. 连续赋值语句(Continuous Assignments) 连续赋值语句是Verilog数据流建模的基本语句,用于对线网进行赋值,等价于门级描述,是从更高的抽象角度来对电路进行描述.连续赋值语 ...
【Unity】11.8 关节
分类:Unity.C#.VS2015 创建日期:2016-05-02 一.简介 Unity提供了下面的关节组件:铰链关节(Hinge Joint).固定关节(Fixed Joint).弹簧关节(Spr ...
ExtJs--05--给window组件加入功能条以及子组件获取上级或下级组件的属性和方法
Ext.onReady(function(){ /** 1-- 给容器组件加入控制条及控制项控制条不同的方向有多种 tbar lbar rbar bbar fbar 2-- 依据组件本身拿到上 ...
使用JSR-303进行后台数据校验
一.在SringMVC中使用使用注解 1.准备校验时使用的JAR validation-api-1.0.0.GA.jar:JDK的接口: hibernate-validator-4.2.0.Fina ...
菜鸟学Java（十）——分页查询
今天继续跟大家说说一些非常基础的东西,这次我们说说分页查询.说到分页,可能很多人都听说过什么真分页.假分页的.简单解释一下,拿第二页,每页20条为例:真分:数据库里取的就是21-40条:假分:数据库 ...

hive之案例分析(grouping sets，lateral view explode, concat_ws)

hive之案例分析(grouping sets，lateral view explode, concat_ws)的更多相关文章

随机推荐

热门专题