一道hive面试题:explode map字段

需要找到每个学生最好的课程和成绩，最差的课程和成绩，以及各科的平均分

文本数据如下：

name　　scores
张三    语文:78,数学:90,英语:82,历史:77,政治:80,物理:88,化学:79,地理:92,生物:86

李四    语文:68,数学:84,英语:79,历史:65,政治:66,物理:78,化学:72,地理:83,生物:75

王五    语文:88,数学:69,英语:86,历史:82,政治:70,物理:68,化学:89,地理:95,生物:93

朱六    语文:73,数学:76,英语:73,历史:76,政治:75,物理:85,化学:86,地理:85,生物:90

钱二    语文:68,数学:91,英语:92,历史:97,政治:83,物理:88,化学:77,地理:72,生物:70

段七    语文:86,数学:80,英语:85,历史:87,政治:88,物理:98,化学:69,地理:87,生物:74

建表语句：

create external table score_test(

    name string,

    scores map<String, int>

)

row format delimited fields terminated by '\t'

collection items terminated by ','

map keys terminated by ':'

lines terminated by '\n'

通过hadoop命令将文本上传到hive表对应的目录下。

sql：

select

    a.name,

    max(if(a.key1 = 1, a.subject, '')) as bad_subject,

    max(if(a.key1 = 1, a.score, 0)) as bad_score,

    max(if(a.key2 = 1, a.subject, '')) as good_subject,

    max(if(a.key2 = 1, a.score, 0)) as good_score,

    avg(a.score) as avg_score

from

(

    select

        name,

        subject,

        score,

        row_number() over(partition by name order by score) as key1,

        row_number() over(partition by name order by score desc) as key2

    from

        score_test LATERAL VIEW explode(scores) adTable AS subject, score

) as a

group by a.name

having bad_score > 0 and good_score > 0

结果：

+---------+--------------+------------+---------------+-------------+-------------+

| name    | bad_subject  | bad_score  | good_subject  | good_score  |  avg_score  |

+---------+--------------+------------+---------------+-------------+-------------+

| 张三     | 历史         | 77         | 地理           | 92          |     83.56   |

| 朱六     | 语文         | 73         | 生物           | 90          |     79.89   |

| 李四     | 历史         | 65         | 数学           | 84          |     74.44   |

| 段七     | 化学         | 69         | 物理           | 98          |     83.78   |

| 王五     | 物理         | 68         | 地理           | 95          |     82.22   |

| 钱二     | 语文         | 68         | 历史           | 97          |     82.00   |

+---------+--------------+------------+---------------+-------------+-------------+

一道hive面试题:explode map字段的更多相关文章

一道hive面试题（窗口函数）
表student中的数据格式如下: name month degree s1 201801 As1 201802 As1 201803 Cs1 201804 As1 201805 As1 201806 ...
Hive：map字段存储和取用 ( str_to_map函数 )
str_to_map(字符串参数, 分隔符1, 分隔符2) 使用两个分隔符将文本拆分为键值对. 分隔符1将文本分成K-V对,分隔符2分割每个K-V对.对于分隔符1默认分隔符是 ',',对于分隔符2默认 ...
Hive表种map字段的查询取用
建表可以用 map<string,string> 查询时可以按照 aaa[bbb], aaa 是map字段名,bbb是其中的参数名,就可以取到这个参数的值了当参数名bbb是string时 ...
【转】hive优化之--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置 ...
hive优化之------控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务. 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的 ...
一道sql面试题（查询语句）
一道sql面试题(查询语句) id name age 1 a 11 2 b 11 3 c 12 4 d 13 5 e ...
hive优化之——控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
Hive任务优化--控制hive任务中的map数和reduce数
一. 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文 ...
hive优化，控制map、reduce数量
一.调整hive作业中的map数 1.通常情况下,作业会通过input的目录产生一个或者多个map任务.主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为1 ...

随机推荐

乘风破浪：LeetCode真题_005_Longest Palindromic Substring
乘风破浪:LeetCode真题_005_Longest Palindromic Substring 一.前言前面我们已经提到过了一些解题方法,比如递推,逻辑推理,递归等等,其实这些都可以用到动态规划 ...
POJ | Boolean Expressions
总时间限制: 1000ms 内存限制: 65536kB 描述The objective of the program you are going to produce is to evaluate ...
January 04 2017 Week 1st Wednesday
Nothing happens unless first a dream. 一切始于梦想. I have a dream, one day I can be the expert in this fi ...
ZT C/C++变量命名规则，个人习惯总结
C/C++变量命名规则,个人习惯总结 (2012-10-31 13:48:10) 转载▼ 标签: c/c变量命名规则 c语言变量命名 c变量命名规则规范 it 分类: C/VC C_C++变量命名规 ...
Jenkins在CentOS中的安装
环境准备: tomcat,jdk 包准备:Jenkins的war包,下载路径:https://jenkins.io/download/ 把下载好的war包放在tomcat的webapps中,重启tom ...
php数组的定义和数组的赋值
1.php执行过程加载页面语法检测执行脚本 $arr=array(1,2,3); 索引数组 $arr=array("name"=>"user1", ...
理解java的三大特性之多态
所谓多态就是指程序中定义的引用变量所指向的具体类型和通过该引用变量发出的方法调用在编程时并不确定,而是在程序运行期间才确定,即一个引用变量倒底会指向哪个类的实例对象,该引用变量发出的方法调用到底是哪个 ...
Apollo2.5 CANBUS调试笔记(测试版)
前言:CANBUS是Apollo需要根据你的底盘写代码的地方,感觉也是Apollo最难调试的部分.这部分首先要选好CAN卡,因为不是Apollo推荐的CAN卡,驱动程序和对应接口,可能都需要自己调整, ...
PAT——1033. 旧键盘打字
旧键盘上坏了几个键,于是在敲一段文字的时候,对应的字符就不会出现.现在给出应该输入的一段文字.以及坏掉的那些键,打出的结果文字会是怎样? 输入格式: 输入在2行中分别给出坏掉的那些键.以及应该输入的文 ...
HDU 1142 A Walk Through the Forest（最短路+记忆化搜索）
A Walk Through the Forest Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Jav ...

一道hive面试题:explode map字段

一道hive面试题:explode map字段的更多相关文章

随机推荐

热门专题