hive 排序

1、全局排序（order by）

Order by：全局排序，只有一个reducer

ASC（ascend）：升序（默认）

DESC（descend）：降序

2、每个MR内部排序（sort by）

sort By：对于大规模的数据集order by的效率非常低。在很多情况下，并不需要全局排序，此时可以使用sort by

Sort By为每个Reducer产生一个排序文件。每个Reducer内部进行排序，对全局结果集来说不是排序。

（1）设置reduce个数

hive (default)> set mapreduce.job.reduces=3;

（2）根据部分编号降序查看员工信息

hive (default)> select * from emp sort by empno desc;

3、分区排序（Distribute By）

Distribute By：在某些情况下，我们需要控制某个特定行应该到哪个Reducer，通常是为了后续的聚集操作。

Distribute by类似MR中partition（自定义分区），进行分区，结合sort by使用

测试时要分配多个reduce进行处理，否则无法看到Distribute by的效果

 set mapreduce.job.reduces=3;

注意：

Distribute by的分区规则是根据分区字段的hashcode与reduce的个数进行取模后，余数相同的分到一个区
hive要求Distribute by语句要写在sort by语句之前

4、cluster by

当Distribute by 和sort by 字段相同时，可以使用cluster by 方式

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

1）以下两种写法等价

hive (default)> select * from emp cluster by deptno;

hive (default)> select * from emp distribute by deptno sort by deptno;

hive 排序的更多相关文章

hive排序
1.升序排序 hive > select id,name,sal from emp order by sal; 2.降序添加关键字desc hive > select id,nam ...
hive 排序分组计数后排序几种不同函数的效果
[转至:http://blackproof.iteye.com/blog/2164260] 总结: 三个分析函数都是按照col1分组内从1开始排序 (假设4个数,第2和第3个数据相同) row_ ...
hive 排序 order by sort by distribute by cluster by
order by: order by是全局排序,受hive.mapred.mode的影响. 使用orderby有一些限制: 1.在严格模式下(hive.mapred.mod ...
hive 排序和聚集
1.order by 是对数据进行全排序,属于标准排序语句 order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规 ...
Hive基础之排序
order by 1.order by会对输入按照指定字段做全局排序,输出结果有序,因此只有一个reducer(多个reducer无法保证全局排序,手工设定reduce数量无效): 只有一个reduc ...
Hive篇---Hive使用优化
一.前述本节主要描述Hive的优化使用,Hive的优化着重强调一个把Hive SQL 当做Mapreduce程序去优化二.主要优化点 1.Hive运行方式:本地模式集群模式本地模式开启本地模式 ...
【Hive学习之八】Hive 调优【重要】
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 ...
hive学习（八）hive优化
Hive 优化 1.核心思想: 把Hive SQL 当做Mapreduce程序去优化以下SQL不会转为Mapreduce来执行 select仅查询本表字段 where仅对本表字段做条件过滤 Ex ...
hive常见的几种优化手段
Hive调优的几个入手点: Hive是基于Hadoop框架的,Hadoop框架又是运行在JVM中的,而JVM最终是要运行在操作系统之上的,所以,Hive的调优可以通过如下几个方面入手: 操作系统调优 ...

随机推荐

[转]Oracle 11g 基于CentOS7静默安装教程(无图形界面，远程安装) --有部份地方有问题
Oracle 11g 基于CentOS7静默安装教程(无图形界面,远程安装) [转载]原文地址:http://canonind.blog.51cto.com/8239025/1883066 一.安装前 ...
Python之列表、元组、字典、集合及字符串的详细使用
1.列表列表相当与C++中的数组,是有序的项目, 通过索引进行查找,但使用起来却方便很多,具体的操作看代码,自己实践一次就非常简单了. 注:列表一般用中括号“[ ]” #列表(数组) name_li ...
pgtksh -- PostgreSQL Tcl/Tk shell 客户端
SYNOPSIS pgtksh [filename [argument...]] DESCRIPTION 描述 pgtksh 是一个带有 PostgreSQL 数据库访问函数扩展的 Tcl/Tk sh ...
Linux架构之Nginx Web基础1
第41章 Nginx Web基础入门 41.1 Nginx部署 41.1.1 Nginx的安装方式源码编译官方仓库 epel仓库优点规范安装简单安装简单便于管理配置易读缺 ...
Java虚拟机——类加载机制
转自:http://blog.csdn.net/ns_code/article/details/17881581 类加载过程类从被加载到虚拟机内存中开始,到卸载出内存为止,它的整个生命周期包括:加载 ...
openGL常用对象的创建及使用
一.GPU英文全称Graphic Processing Unit,中文翻译为“图形处理器”.GPU(显卡核心芯片)是显示卡的“大脑”,它决定了该显卡的档次和大部分性能二.使用背景随着OpenGL状 ...
ffmpeg windows下编译安装
安装msys2 更新源使下载速度更快进入msys64/etc/pacman.d/目录中,分别在三个文件中增加mirrorlist.mingw32Server = http://mirrors.ust ...
CSS3 结构性伪类选择器（2）
CSS3 结构性伪类选择器—first-child “:first-child”选择器表示的是选择父元素的第一个子元素的元素E.简单点理解就是选择元素中的第一个子元素,记住是子元素,而不是后代元素. ...
关于BFC的总结
虽然工作这么多年了,但是如果让我直接解释一下什么是BFC的时候,还是感觉有点不知道怎么准确的表达,下面就翻翻文档,总结一下,加深一下认识吧.大家也可以关注我的GitHub后续的更新 1.BFC的基本概 ...
jest操作 Elasticsearch
package com.lgmall.search; import com.lgmall.search.esEntity.Article;import com.lgmall.search.esEnti ...