hive 排序和聚集

1、order by 是对数据进行全排序，属于标准排序语句

order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）
只有一个reducer，会导致当输入规模较大时，需要较长的计算时间

与mysql中 order by区别在于：在 strict 模式下，必须指定 limit，否则执行会报错

• 使用命令set hive.mapred.mode; 查询当前模式

• 使用命令set hive.mapred.mode=strick; 设置当前模式（set hive.mapred.mode=nonstrict; (default value / 默认值)）

hive> select * from logs where date='2015-01-02' order by te;

FAILED: SemanticException 1:52 In strict mode,

 if ORDER BY is specified, LIMIT must also be specified.

Error encountered near token 'te'

 对于分区表，还必须显示指定分区字段查询

hive> select * from logs order by te limit 5;

FAILED: SemanticException [Error 10041]:

No partition predicate found for Alias "logs" Table "logs"

2、sort by 对数据局部排序，是hive的扩展排序语句

可以有多个Reduce Task（以DISTRIBUTE BY后字段的个数为准）。也可以手工指定：set mapred.reduce.tasks=4;

每个Reduce Task 内部数据有序，但全局无序 

set mapred.reduce.tasks = 2;

insert overwrite local directory '/root/hive/b'

    select * from logs

    sort by te;

 上述查询语句，将结果保存在本地磁盘 /root/hive/b ，此目录下产生2个结果文件：000000_0 + 000001_0 。每个文件中依据te字段排序。 

Distribute by特性：

    按照指定的字段对数据进行划分到不同的输出 reduce 文件中

    distribute by相当于MR 中的paritioner，默认是基于hash 实现的

    distribute by通常与Sort by连用

set mapred.reduce.tasks = 2;

insert overwrite local directory '/root/hive/b'

    select * from logs

    distribute by date

    sort by te;

sort by不是全局排序，其在数据进入reducer前完成排序.

因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。

sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响

sort by 的数据只能保证在同一reduce中的数据可以按指定字段排序。

使用sort by 你可以指定执行的reduce 个数（set mapred.reduce.tasks=<number>）,对输出的数据再执行归并排序，即可以得到全部结果。

注意：可以用limit子句大大减少数据量。使用limit n后，传输到reduce端（单机）的数据记录数就减少到n* （map个数）。否则由于数据过大可能出不了结果。

hive> set mapred.reduce.tasks;

mapred.reduce.tasks=-1

hive> set mapred.reduce.tasks=2;

hive> set mapred.reduce.tasks;

mapred.reduce.tasks=2

hive> insert overwrite table weather_data2 select year,data from weather_data distribute by year sort by year asc,data desc;

hive> dfs -ls /hive/warehouse/busdata.db/weather_data2;

Found 2 items

-rw-r--r--   1 hadoop supergroup      43647 2019-03-09 16:29 /hive/warehouse/busdata.db/weather_data2/000000_0

-rw-r--r--   1 hadoop supergroup      36470 2019-03-09 16:29 /hive/warehouse/busdata.db/weather_data2/000001_0

3、cluster by

    如果 Sort By 和 Distribute By 中所有的列相同，可以缩写为Cluster By以便同时指定两者所使用的列。

    注意被cluster by指定的列只能是降序，不能指定asc和desc。一般用于桶表

set mapred.reduce.tasks = 2;

insert overwrite local directory '/root/hive/b'

    select * from logs

    cluster by date;

4、其他

//五种子句是有严格顺序的：

where → group by → having → order by → limit

//where和having的区别:

//where是先过滤再分组(对原始数据过滤),where限定聚合函数

hive> select count(*),age from tea where id>18 group by age;

//having是先分组再过滤(对每个组进行过滤,having后只能跟select中已有的列)

hive> select age,count(*) c from tea group by age having c>2;

//group by后面没有的列,select后面也绝不能有(聚合函数除外)

hive> select ip,sum(load) as c from logs  group by ip sort by c desc limit 5;

//distinct关键字返回唯一不同的值(返回age和id均不相同的记录)

hive> select distinct age,id from tea;

//hive只支持Union All,不支持Union

//hive的Union All相对sql有所不同,要求列的数量相同,并且对应的列名也相同,但不要求类的类型相同(可能是存在隐式转换吧)

select name,age from tea where id<80

union all

select name,age from stu where age>18;

hive 排序和聚集的更多相关文章

Hive中排序和聚集
//五种子句是有严格顺序的: where → group by → having → order by → limit ; //distinct关键字返回唯一不同的值(返回age和id均不相同的记录) ...
hive 排序
1.全局排序(order by) Order by:全局排序,只有一个reducer ASC(ascend):升序(默认) DESC(descend):降序 2.每个MR内部排序(sort by) s ...
hive排序
1.升序排序 hive > select id,name,sal from emp order by sal; 2.降序添加关键字desc hive > select id,nam ...
hive 排序分组计数后排序几种不同函数的效果
[转至:http://blackproof.iteye.com/blog/2164260] 总结: 三个分析函数都是按照col1分组内从1开始排序 (假设4个数,第2和第3个数据相同) row_ ...
hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...
Hive基础之排序
order by 1.order by会对输入按照指定字段做全局排序,输出结果有序,因此只有一个reducer(多个reducer无法保证全局排序,手工设定reduce数量无效): 只有一个reduc ...
Hive基本语法操练
建表规则如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment ...
Hive基础讲解
一.Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的.马云在退休的时候说互联网现在进入了大数据时代,大数据是现在互联网的趋势,而had ...
Hive 文件格式 & Hive操作（外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制）
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语 ...

随机推荐

【BZOJ4553】[HAOI2016&TJOI2016]序列
[BZOJ4553][HAOI2016&TJOI2016]序列题面 bzoj 洛谷题解一定要仔细看题啊qwq... 我们设$mn[i],mx[i]$表示第$i$个位置上最小出现.最大出现 ...
解决E: Could not get lock /var/lib/dpkg/lock - open (11: Resource temporarily unavailable) E: Unable to lock the administration directory (/var/lib/dpkg/), is another process using it?
是不是在使用ubuntu的时候特别是安装或更新的时候会出现下面的情况: E: Could not get lock /var/lib/dpkg/lock - open (11: Resource t ...
moment.js使用方法总结
Moment.js是一个轻量级的JavaScript时间库,它方便了日常开发中对时间的操作,提高了开发效率.日常开发中,通常会对时间进行下面这几个操作:比如获取时间,设置时间,格式化时间,比较时间等等 ...
sql server 查询所有被锁表并批量解除
废话不多说,直接上代码: --查询被锁表 select request_session_id spid,OBJECT_NAME(resource_associated_entity_id) table ...
Linux 安装Zookeeper<准备>(使用Mac远程访问)
阅读本文需要安装JDK 一 Zookeeper简介 zookeeper是用java语言编写的一款为分布式应用所设计的协调服务 zookeeper是apacahe hadoop的子项目使用zookee ...
flexbox的应用
2009年,display: box 就已经出现,但是直到IE11的发布,全部的主流浏览器才统一支持新的用法display: flex. 这里只说应用,浏览器的兼容处理会附在文章的末尾. 起步在现代 ...
Java EE JavaBean组件
一.简介 JavaBean组件是一些可移植.可重用并可组装到应用程序中的Java类,类必须是具体的和公共的. 符合下列设计规则的任何Java类均是以JavaBean: 1.对数据类型“protype” ...
Nginx之一:Nginx的编译安装
一.Nginx简介官方网址:http://nginx.org/ Nginx是由1994年毕业于俄罗斯国立莫斯科鲍曼科技大学的同学为俄罗斯rambler.ru公司开发的,开发工作最早从2002年开始, ...
常用monkey_app稳定性
Monkey稳定性测试 1 前言为方便快速上手Monkey测试相关问题,针对测试中发现的Monkey问题进行了整理总结,供定位Monkey参考. 2 关于Monkey测试 2 ...
Hyperledger Fabric 1.0 从零开始（十三）——orderer分布式方案
简述在搭建HyperLedger Fabric环境的过程中,我们会用到一个configtx.yaml文件(可参考Hyperledger Fabric 1.0 从零开始(八)——Fabric多节点集群 ...

hive 排序和聚集

hive 排序和聚集的更多相关文章

随机推荐

热门专题