hive中的全排序

写mapreduce程序时，如果reduce个数>1，想要实现全排序需要控制好map的输出

现在学了Hive，写sql大家都很熟悉，如果一个order by解决了全排序还用那么麻烦写mapreduce函数吗？

事实上，hive使用order by会默认设置reduce的个数=1，既然reducer的个数都是1了，结果自然全排序！

这也违背了充分利用分布式计算进行海量数据排序的初衷，效率低下。

那么hive又提供了一个可供选择的方式：sort by

它会保证每个reducer的输出文件是有序的（其实是废话，每个reducer的输出当然是有序的！），要想实现全排序，还得加一个order by的过程，就是对sort by的reduce输出结果再进行一次排序。

所以：

要想用hive实现全排序：

要么用order by，但这样默认了reducer个数为1，效率低下。

要么用sort by+order by，sort by过程可以设置reducer个数（n），order by过程用n个reducer的输出文件进行一次全排序，得到最终的结果。

注：

（1）对于order by，sort by：

我们可以使用limit进行限制返回的行数，从而实现抓出数据的top N的情形。

（2）对于distribute by：

sort by为每个reducer产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。hive的distribute by就派上用场了：

From table

select year, temperature

distribute by year

sort by year asc, temperature desc;

上面实现了局部排序，且规定了：根据年份和气温对气象数据进行排序，以确保所有具有相同年份的行最终都在一个reducer分区中（文件下），可以看出，distribute by经常与sort by一起使用。

需要注意的是，hive要求distribute by 要写在sort by之前。

（3）对于cluster by：

简而言之：cluster by column=distribute by column+sort by column （注意，都是针对column列，且采用默认ASC）

即对于上面例子：

From table

select year, temperature

cluster by year;

就等于：

From table

select year, temperature

distribute by year

sort by year;

当然这失去了按照气温排序的要求。

hive中的全排序的更多相关文章

[大数据相关] Hive中的全排序：order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序. 现在学了hive,写sql大家都很熟悉,如果一个order by解决 ...
HIVE中join、semi join、outer join
补充说明 left outer join where is not null与left semi join的联系与区别:两者均可实现exists in操作,不同的是,前者允许右表的字段在select或 ...
Hive中SELECT TOP N的方法(order by与sort by的区别)
我想说的SELECT TOP N是取最大前N条或者最小前N条. Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N. 但是在Hive中order by只能使 ...
Hadoop学习笔记：全排序
在Hadoop中实现全排序有如下三种方法: 1. 只使用一个reducer 2. 自定义partitioner 3. 使用TotalOrderPartitioner 其中第一种方法显然违背了mapre ...
Hive中的排序语法
ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似.他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间. ...
mysql分组排序取最大值所在行，类似hive中row_number() over partition by
如下图, 计划实现 :按照 parent_code 分组, 取组中code最大值所在的整条记录,如红色部分.(类似hive中: row_number() over(partition by)) sel ...
Hive 中的四种排序详解，再也不会混淆用法了
Hive 中的四种排序排序操作是一个比较常见的操作,尤其是在数据分析的时候,我们往往需要对数据进行排序,hive 中和排序相关的有四个关键字,今天我们就看一下,它们都是什么作用. 数据准备下面我们 ...
Hive 中的 order by, sort by, distribute by 与 cluster by
Order By order by 会对输入做全排序, 因此只有一个Reducer(多个Reducer无法保证全局有序), 然而只有一个Reducer, 会导致当输入规模较大时, 消耗较长的计算时间. ...
谈谈hive中join下on和where
本文为博客园作者所写: 一寸HUI,个人博客地址:https://www.cnblogs.com/zsql/ 很多人如果先接触mysql的执行顺序(from ->on ->join -&g ...

随机推荐

动画的特效Interpolator
AccelerateDecelerateInterpolator 在动画开始与结束的地方速率改变比较慢,在中间的时候加速 AccelerateInterpolator 在动画开始的地方速率改变比较慢 ...
临时改GCC编译器，重启后失效
临时改GCC编译器,重启后失效.例如,用如下命令: export CROSS_COMPILE= <gcc 文件所在的目录>/arm-linux-gnueabihf- 本例中使用的命令如下: ...
嵌入式X86运行linux及QtEmbedded+触摸屏(X86PC104+Xlinux+QtE+触摸屏解决办法)
嵌入式X86运行linux及QtEmbedded+触摸屏(X86PC104+Xlinux+QtE+触摸屏解决办法) QQ:5724308 邮箱:sankye@163.com
LLDB命令查看内存的分配历史
(lldb) script import lldb.macosx.heap(lldb) malloc_info --stack-history 0x10010d680
解决Git报错：The current branch is not configured for pull No value for key branch.master.merge found in configuration
1.在本地工程目录找到config文件(我的是在D:\git\demo\.git):2.修改config文件内容为: [core] repositoryformatversion = 0 filemo ...
在 ASP.NET MVC 应用中使用 NInject 注入 ASMX 类型的 Web Service
这几天,有同学问到为什么在 ASP.NET MVC 应用中,无法在 .ASMX 中使用 NInject 进行注入. 现象比如,我们定义了一个接口,然后定义了一个实现. public interfac ...
ajax跨域提交
ajax跨域提交如果在两个网站之间进行异步互动想要通过ajax时不可能的,因为header不支持xmlhttprequest这种方式的跨域提交. 但是jquery的ajax同时还提供了jso ...
C#将C++动态库的回调函数封装成事件
关于C#调用C++动态库的文章很多,调用动态库中回调函数的方法也不在少数.但大多数调用回调函数的方法依然保留了C++的语法特点. 比如有一段C++的回调函数代码,为了表达它的意思,我把注释也粘贴了进来 ...
SDUT 3311 数据结构实验之串三：KMP应用
数据结构实验之串三:KMP应用 Time Limit: 1000MS Memory Limit: 65536KB Submit Statistic Problem Description 有n个小朋友 ...
有关OpenCV1.0中GUI命令的几个函数学习总结
1.修改窗口背景色或者光标形状在OpenCV1.0版本利用函数int cvNamedWindow( const char* name, int flags )初始化创建一个窗口后,窗口的背景色是灰色 ...

hive中的全排序

hive中的全排序的更多相关文章

随机推荐

热门专题