[Hive_9] Hive 的排序

0. 说明

　　全排序(order by) | 部分排序(sort by) | hash 分区(distribute by) | cluster by

1. 前期准备

　　1.1 建表

create table user_order(id int, name string, age int, province string, city string)
row format delimited
fields terminated by '\t';

　　1.2 设置 reduce 个数

set mapreduce.job.reduces=2;

2. 全排序（order by）

　　使用一个 reduce，在真实使用中，需要加 limit 限制。

truncate table user_order;

insert into user_order select * from user_par order by id;

3. 部分排序（sort by ）

　　在每个 reduce 中分别排序

truncate table user_order;

insert into user_order select * from user_par sort by id;

4. hash 分区（distribute by ）

　　未排序

truncate table user_order;

insert into user_order select * from user_par distribute by id;

5. cluster by

　　cluster by = distribute by + sort by

truncate table user_order;

insert into user_order select * from user_par cluster by id;

[Hive_9] Hive 的排序的更多相关文章

hive 分组排序，topN
hive 分组排序,topN 语法格式:row_number() OVER (partition by COL1 order by COL2 desc ) rankpartition by:类似hiv ...
hive的排序，分組练习
hive的排序,分組练习数据: 添加表和插入数据(数据在Linux本地中) create table if not exists tab1( IP string, SOURCE string, TY ...
Hive 的排序
全排序:order by对全部所有的数据进行排序,在实现的时候是放到一个reduce中进行的,可以想象这样做效率是比较低的: 局部排序:sort by对数据进行分组,然后在组内进行排序,每个reduc ...
hive：排序分析函数
基本排序函数语法: rank()over([partition by col1] order by col2) dense_rank()over([partition by col1] order ...
hive分组排序取top N
pig可以轻松获取TOP n.书上有例子 hive中比较麻烦,没有直接实现的函数,可以写udf实现.还有个比较简单的实现方法: 用row_number,生成排名序列号.然后外部分组后按这个序列号多虑, ...
Hive中排序和聚集
//五种子句是有严格顺序的: where → group by → having → order by → limit ; //distinct关键字返回唯一不同的值(返回age和id均不相同的记录) ...
hive 分组排序函数 row_number() over(partition by " " order by " "desc
语法:row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名 partition by:类似hive的建表, ...
hive的排序 order by和sort by
在算法中,各个排序算法的复杂度都比较高,正常情况下为O (nlogn) ,所以当数据量特别大的时候,对数组进行排序消耗都很大. 因为hive的计算引擎MapReduce是分布式系统, 利用分布式的特点 ...
hive 全局排序
不分发数据,使用单个reducer ; select * from dw.dw_app where dt>='2016-09-01' and dt <='2016-09-18' order ...

随机推荐

es6入门3--箭头函数与形参等属性的拓展
对函数拓展兴趣更大一点,优先看,前面字符串后面再说,那些API居多,会使用能记住部分就好. 一.函数参数可以使用默认值 1.默认值生效条件在变量的解构赋值就提到了,函数参数可以使用默认值了.正常我们 ...
分布式系统监视zabbix讲解八之自动发现/自动注册--技术流ken
自动发现(LLD) 概述自动发现(LLD)提供了一种在计算机上为不同实体自动创建监控项,触发器和图形的方法.例如,Zabbix可以在你的机器上自动开始监控文件系统或网络接口,而无需为每个文件系统或网 ...
[android] 采用post的方式提交数据
GET:内部实现是组拼Url的方式,http协议规定最大长度4kb,ie浏览器限制1kb POST和GET的区别比较了一下,多了几条信息 Content-Type:application/x-www- ...
springMVC_06数据的处理
一.提交数据的处理 *springmvc是单例的 1. 提交的域名称和处理方法的参数一致即可提交的数据处理方法 2.如果域名城和参数名不一致,在方法内加上域名称eg.(RequestParam(“ ...
mac 相关命令
安装 adb (用于调试 app) brew install Caskroom/cask/android-platform-tools 文件夹显示隐藏文件命令 defaults write com.a ...
JavaSE-基础语法(四)-javaSE进阶
javaSE进阶三.异常四.多线程五.Lambda表达式六.IO流七.网络编程八.新特性 13.异常体系14.异常分类15.声明抛出捕获异常16.自定义异常17.线程概念18.线程同步19 ...
新浪IP库地址
新浪IP库地址 http://int.dpool.sina.com.cn/iplookup/iplookup.php
C#设计模式之十九策略模式（Stragety Pattern）【行为型】
一.引言今天我们开始讲“行为型”设计模式的第七个模式,该模式是[策略模式],英文名称是:Stragety Pattern.在现实生活中,策略模式的例子也非常常见,例如,在一个公司中,会有各种工作人员 ...
php 设计模式之单例模式
单例模式的关键点 1.//私有构造函数,防止直接new 创建实例 2.//设置静态成员变量作保存实例 3.//公有访问实例的静态方法 4.//防止克隆对象的方法上代码: //单例模式 class ...
java使用POI将数据导出放入Excel
本文主要是将数据库取出的数据按照自定义的行列格式导出到excel中,POI则是实现我们需求所用到的技术. POI介绍使用spring boot导入相关依赖获取数据(自行处理) 完整代码实例:创建e ...

[Hive_9] Hive 的排序

0. 说明

1. 前期准备

1.1 建表

1.2 设置 reduce 个数

2. 全排序（order by）

3. 部分排序（sort by ）

4. hash 分区（distribute by ）

5. cluster by

[Hive_9] Hive 的排序的更多相关文章

随机推荐

热门专题

　　1.1 建表

　　1.2 设置 reduce 个数