hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])

方案一：请参考《数据库“行专列”操作---使用row_number()over(partition by 分组字段 [order by 排序字段])》，该方案是sqlserver,oracle,mysql,hive均适用的。

在hive中的方案分为以下两种方案：

创建测试表，并插入测试数据：

--hive　测试 行转列 collect_set collect_list

create table tommyduan_test(

gridid string,

height int,

cell string,

mrcount int,

weakmrcount int

);

insert into tommyduan_test values('g1',1,'cell1',12,3);

insert into tommyduan_test values('g1',1,'cell2',22,3);

insert into tommyduan_test values('g1',1,'cell3',23,3);

insert into tommyduan_test values('g1',1,'cell4',1,3);

insert into tommyduan_test values('g1',1,'cell5',3,3);

insert into tommyduan_test values('g1',1,'cell6',4,3);

insert into tommyduan_test values('g1',1,'cell19',21,3);

insert into tommyduan_test values('g2',1,'cell4',1,3);

insert into tommyduan_test values('g2',1,'cell5',3,3);

insert into tommyduan_test values('g2',1,'cell6',4,3);

insert into tommyduan_test values('g2',1,'cell19',21,3);

方案二：使用collect_set方案

注意：collect_set是一个set集合，不允许重复的记录插入

select gridid,height,collect_list(cell) cellArray,collect_list(mrcount) mrcountArray,collect_list(weakmrcount) weakmrcountArray

from (

select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

from tommyduan_test

group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height;

+---------+---------+-----------------------------+---------------+-------------------+--+

| gridid  | height  |          cellarray          | mrcountarray  | weakmrcountarray  |

+---------+---------+-----------------------------+---------------+-------------------+--+

| g1      | 1       | ["cell3","cell2","cell19"]  | [23,22,21]    | [3,3,3]           |

| g2      | 1       | ["cell19","cell6","cell5"]  | [21,4,3]      | [3,3,3]           |

+---------+---------+-----------------------------+---------------+-------------------+--+

select gridid,height,

(case when size(cellArray)>0 then cellArray[] else '-9999' end) as cell1,

(case when size(cellArray)>0 then mrcountArray[] else '-9999' end) as cell1_mrcount,

(case when size(cellArray)>0 then weakmrcountArray[] else '-9999' end) as cell1_weakmrcount,

(case when size(cellArray)>1 then cellArray[] else '-9999' end) as cell2,

(case when size(cellArray)>1 then mrcountArray[] else '-9999' end) as cell2_mrcount,

(case when size(cellArray)>1 then weakmrcountArray[] else '-9999' end) as cell2_weakmrcount,

(case when size(cellArray)>2 then cellArray[] else '-9999' end) as cell3,

(case when size(cellArray)>2 then mrcountArray[] else '-9999' end) as cell3_mrcount,

(case when size(cellArray)>2 then weakmrcountArray[] else '-9999' end) as cell3_weakmrcount

from

(

select gridid,height,collect_list(cell) cellArray,collect_list(mrcount) mrcountArray,collect_list(weakmrcount) weakmrcountArray

from (

select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

from tommyduan_test

group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height

) t12;

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

| gridid  | height  |  cell1  | cell1_mrcount  | cell1_weakmrcount  | cell2  | cell2_mrcount  | cell2_weakmrcount  |  cell3  | cell3_mrcount  | cell3_weakmrcount  |

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

| g1      | 1       | cell3   | 23             | 3                  | cell2  | 22             | 3                  | cell19  | 21             | 3                  |

| g2      | 1       | cell19  | 21             | 3                  | cell6  | 4              | 3                  | cell5   | 3              | 3                  |

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

方案三：使用collect_list/collect_all方案

注意：collect_set是一个set集合，不允许重复的记录插入

select gridid,height,collect_set(cell),collect_set(mrcount),collect_set(weakmrcount)

from (select * from tommyduan_test order by gridid,height,mrcount desc) t10

group by gridid,height;

+---------+---------+-------------------------------------------------------------+----------------------+------+--+

| gridid  | height  |                             _c2                             |         _c3          | _c4  |

+---------+---------+-------------------------------------------------------------+----------------------+------+--+

| g1      | 1       | ["cell3","cell2","cell19","cell1","cell6","cell5","cell4"]  | [23,22,21,12,4,3,1]  | []  |

| g2      | 1       | ["cell19","cell6","cell5","cell4"]                          | [21,4,3,1]           | []  |

+---------+---------+-------------------------------------------------------------+----------------------+------+--+

select gridid,height,collect_set(cell) cellArray,collect_set(mrcount) mrcountArray,collect_set(weakmrcount) weakmrcountArray

from (

    select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

    from tommyduan_test

    group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height;

+---------+---------+-----------------------------+---------------+-------------------+--+

| gridid  | height  |          cellarray          | mrcountarray  | weakmrcountarray  |

+---------+---------+-----------------------------+---------------+-------------------+--+

| g1      | 1       | ["cell3","cell2","cell19"]  | [23,22,21]    | []               |

| g2      | 1       | ["cell19","cell6","cell5"]  | [21,4,3]      | []               |

+---------+---------+-----------------------------+---------------+-------------------+--+

select gridid,height,collect_set(concat_ws(',',cell,cast(mrcount as string), cast(weakmrcount as string))) as cellArray

from (

select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

from tommyduan_test

group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height

+---------+---------+--------------------------------------------+--+

| gridid  | height  |                 cellarray                  |

+---------+---------+--------------------------------------------+--+

| g1      | 1       | ["cell3,23,3","cell2,22,3","cell19,21,3"]  |

| g2      | 1       | ["cell19,21,3","cell6,4,3","cell5,3,3"]    |

+---------+---------+--------------------------------------------+--+

select gridid,height,

(case when size(cellArray)>0 then split(cellArray[],'_')[] else '-9999' end) as cell1,

(case when size(cellArray)>0 then split(cellArray[],'_')[] else '-9999' end) as cell1_mrcount,

(case when size(cellArray)>0 then split(cellArray[],'_')[] else '-9999' end) as cell1_weakmrcount,

(case when size(cellArray)>1 then split(cellArray[],'_')[] else '-9999' end) as cell2,

(case when size(cellArray)>1 then split(cellArray[],'_')[] else '-9999' end) as cell2_mrcount,

(case when size(cellArray)>1 then split(cellArray[],'_')[] else '-9999' end) as cell2_weakmrcount,

(case when size(cellArray)>2 then split(cellArray[],'_')[] else '-9999' end) as cell3,

(case when size(cellArray)>2 then split(cellArray[],'_')[] else '-9999' end) as cell3_mrcount,

(case when size(cellArray)>2 then split(cellArray[],'_')[] else '-9999' end) as cell3_weakmrcount

from

(

select gridid,height,collect_set(concat_ws('_',cell,cast(mrcount as string), cast(weakmrcount as string))) as cellArray

from (

select gridid,height,cell,mrcount,weakmrcount,row_number()over(partition by gridid,height order by mrcount desc) rn

from tommyduan_test

group by gridid,height,cell,mrcount,weakmrcount

) t10

where rn<4

group by gridid,height

) t12;

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

| gridid  | height  |  cell1  | cell1_mrcount  | cell1_weakmrcount  | cell2  | cell2_mrcount  | cell2_weakmrcount  |  cell3  | cell3_mrcount  | cell3_weakmrcount  |

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

| g1      | 1       | cell3   | 23             | 3                  | cell2  | 22             | 3                  | cell19  | 21             | 3                  |

| g2      | 1       | cell19  | 21             | 3                  | cell6  | 4              | 3                  | cell5   | 3              | 3                  |

+---------+---------+---------+----------------+--------------------+--------+----------------+--------------------+---------+----------------+--------------------+--+

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])的更多相关文章

数据库“行专列”操作---使用row_number()over(partition by 分组字段 [order by 排序字段])
测试样例: create table test(rsrp string,rsrq string,tkey string,distan string); '); '); '); '); select * ...
dos命令行连接操作ORACLE数据库
C:\Adminstrator> sqlplus "/as sysdba" 查看是否连接到数据库 SQL> select status from v$instance; ...
hive函数应用之操作json
1.创建表 createtable.sql中存放的创建表语句如下 create external table adt.jsontest ( appKey string comment "AP ...
Python(数据库之表操作)
一.修改表 1. 修改表名 ALTER TABLE 表名 RENAME 新表名; #mysql中库名.表名对大小写不敏感 2. 增加字段 ALTER TABLE 表名ADD 字段名数据类型 [完整性 ...
SQL Server数据库--》top关键字，order by排序，distinct去除重复记录，sql聚合函数，模糊查询，通配符，空值处理。。。。
top关键字:写在select后面字段的前面比如你要显示查询的前5条记录,如下所示: select top 5 * from Student 一般情况下,top是和order by连用的 orde ...
hive 分组排序函数 row_number() over(partition by " " order by " "desc
语法:row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名 partition by:类似hive的建表, ...
Hive数据库操作
Hive数据结构除了基本数据类型(与java类似),hive支持三种集合类型 Hive集合类型数据 array.map.structs hive (default)> create table ...
大数据开发实战：离线大数据处理的主要技术--Hive,概念，SQL，Hive数据库
1.Hive出现背景 Hive是Facebook开发并贡献给Hadoop开源社区的.它是建立在Hadoop体系架构上的一层SQL抽象,使得数据相关人员使用他们最为熟悉的SQL语言就可以进行海量数据的处 ...
HIVE的sql语句操作
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查 ...

随机推荐

python作业02
1.请用代码实现:利用下划线将列表的每一个元素拼接成字符串,li＝['alex', 'eric', 'rain'] li = ['alex', 'eric', 'rain'] v = "_& ...
笔记：Eclipse 安装 m2eclipse 插件
M2eclipse 插件 Eclipse 下一款十分强大的 Maven 插件,可以访问 http://m2eclipse.sonatype.org 了解更多该项目的信息,如果需要安装该插件可以按照如下 ...
WinSock 异步I/O模型
如果你想在Windows平台上构建服务器应用,那么I/O模型是你必须考虑的. Windows操作系统提供了五种I/O模型,分别是选择(select)模型,异步选择(WSAAsyncSelect)模型, ...
Spring Boot 1.4测试的改进
对Pivotal团队来说,工作上的好事情是他们拥有一个被叫做Pivotal Labs的灵活发展部门,拥有Labs团队的Lean 和 XP程序设计方法学的强大支持,例如结对编程和测试驱动开发.他们对于测 ...
Android 优化APP 构建速度的17条建议
转载:http://www.jianshu.com/p/a1cc8f2e0877 较长的构建时间将会减缓项目的开发进度,特别是对于大型的项目,app的构建时间长则十几分钟,短则几分钟,长的构建时间已经 ...
基于python的接口自动化测试+ddt数据驱动
在测试接口时,一个接口会先写好测试用例,这个用例主要针对功能,传入参时考虑到各种场景,正常的,异常的,如:参数缺省,参数传一个六位数字写用例时考虑边界情况等. 一个接口设计用例时有可能会十几条到几十条 ...
Linux安装java环境教程
前言: 本教程基于jdk 1.8,但是此教程适用于jdk1.7等版本. 教程正文: 1.1. 登录Oracle官网下载jdk1.8安装包(gz结尾) 这里可以用"wget + 下载地址&qu ...
php设计模式七 ---组合模式
1.介绍组合模式(Composite Pattern),又叫部分整体模式,是用于把一组相似的对象当作一个单一的对象.组合模式依据树形结构来组合对象,用来表示部分以及整体层次.这种类型的设计模式属于结 ...
JavaWeb学习笔记八监听器
监听器Listener jservlet规范包括三个技术点:servlet :listener :filter:监听器就是监听某个对象的的状态变化的组件.监听器的相关概念事件源: 被监听的对象(三个域 ...
04_Python的数据类型1数值和字符串_Python编程之路
上一节我们通过一个helloworld程序学习python的一些简单操作,还有输入与输出这节我们来讲Python的数据类型与变量的操作 Python的交互器在讲这个之前,我要先讲一下python的 ...

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])

方案二：使用collect_set方案

方案三：使用collect_list/collect_all方案

hive：数据库“行专列”操作---使用collect_set/collect_list/collect_all & row_number()over(partition by 分组字段 [order by 排序字段])的更多相关文章

随机推荐

热门专题