[Hive_9] Hive 的排序

0. 说明

　　全排序(order by) | 部分排序(sort by) | hash 分区(distribute by) | cluster by

1. 前期准备

　　1.1 建表

create table user_order(id int, name string, age int, province string, city string)
row format delimited
fields terminated by '\t';

　　1.2 设置 reduce 个数

set mapreduce.job.reduces=2;

2. 全排序（order by）

　　使用一个 reduce，在真实使用中，需要加 limit 限制。

truncate table user_order;

insert into user_order select * from user_par order by id;

3. 部分排序（sort by ）

　　在每个 reduce 中分别排序

truncate table user_order;

insert into user_order select * from user_par sort by id;

4. hash 分区（distribute by ）

　　未排序

truncate table user_order;

insert into user_order select * from user_par distribute by id;

5. cluster by

　　cluster by = distribute by + sort by

truncate table user_order;

insert into user_order select * from user_par cluster by id;

[Hive_9] Hive 的排序的更多相关文章

hive 分组排序，topN
hive 分组排序,topN 语法格式:row_number() OVER (partition by COL1 order by COL2 desc ) rankpartition by:类似hiv ...
hive的排序，分組练习
hive的排序,分組练习数据: 添加表和插入数据(数据在Linux本地中) create table if not exists tab1( IP string, SOURCE string, TY ...
Hive 的排序
全排序:order by对全部所有的数据进行排序,在实现的时候是放到一个reduce中进行的,可以想象这样做效率是比较低的: 局部排序:sort by对数据进行分组,然后在组内进行排序,每个reduc ...
hive：排序分析函数
基本排序函数语法: rank()over([partition by col1] order by col2) dense_rank()over([partition by col1] order ...
hive分组排序取top N
pig可以轻松获取TOP n.书上有例子 hive中比较麻烦,没有直接实现的函数,可以写udf实现.还有个比较简单的实现方法: 用row_number,生成排名序列号.然后外部分组后按这个序列号多虑, ...
Hive中排序和聚集
//五种子句是有严格顺序的: where → group by → having → order by → limit ; //distinct关键字返回唯一不同的值(返回age和id均不相同的记录) ...
hive 分组排序函数 row_number() over(partition by " " order by " "desc
语法:row_number() over (partition by 字段a order by 计算项b desc ) rank --这里rank是别名 partition by:类似hive的建表, ...
hive的排序 order by和sort by
在算法中,各个排序算法的复杂度都比较高,正常情况下为O (nlogn) ,所以当数据量特别大的时候,对数组进行排序消耗都很大. 因为hive的计算引擎MapReduce是分布式系统, 利用分布式的特点 ...
hive 全局排序
不分发数据,使用单个reducer ; select * from dw.dw_app where dt>='2016-09-01' and dt <='2016-09-18' order ...

随机推荐

Deep learning with Python 学习笔记（11）
总结机器学习(machine learning)是人工智能的一个特殊子领域,其目标是仅靠观察训练数据来自动开发程序［即模型(model)］.将数据转换为程序的这个过程叫作学习(learning) 深 ...
Bootstrap-3-Typeahead
是Bootstrap-3-Typeahead,不是Twitter open source的typeahead,两者用法有差异.外加如果配合原生的Bootstrap3 的话推荐还是用这个.(当然Twit ...
Go 标准库 http.FileServer 实现静态文件服务
http.FileServer 方法属于标准库 net/http,返回一个使用 FileSystem 接口 root 提供文件访问服务的 HTTP 处理器.可以方便的实现静态文件服务器. http.L ...
面试题·HashMap和Hashtable的区别(转载再整理)
原文链接: Javarevisited 翻译: ImportNew.com- 唐小娟译文链接: http://www.importnew.com/7010.html HashMap和Hashtabl ...
TCP&UDP&Socket讲解（上）
这两天我将整理TCP&UDP&Socket,大约花大家10-15分钟之间,希望本篇文章让大家对TCP使用的理解提高一个层次. 建议大家拿出纸和笔,画一下!!! 一.TCP 1. TCP ...
《C#并发编程经典实例》学习笔记—异步编程关键字 Async和Await
C# 5.0 推出async和await,最早是.NET Framework 4.5引入,可以在Visual Studio 2012使用.在此之前的异步编程实现难度较高,async使异步编程的实现变得 ...
Netty实战一之异步和事件驱动
Netty是一款异步的事件驱动的网络应用程序框架,支持快速地开发可维护的高性能的面向协议的服务器和客户端. 使用Netty你可以并不是很需要网络编程.多线程处理.并发等专业Java知识的积蓄. Net ...
linux查看用户、创建用户、设置密码、修改用户、删除用户命令
查看用户 /etc/passwd /etc/shadow id alex ' |passwd --stdin alex # 设置密码,不需要交互 [root@localhost ~]# tail -l ...
输出映射resultType
√1:简单类型 √2:简单类型列表 √3:POJO类型只有列名或列名的别名与POJO的属性名一致,该列才可以映射成功只要列名或列名的别名与POJO的属性名有一个一致,就会创建POJO对象如果列名或列名 ...
HTML5 常用标签整理
 <div> <header> <hgroup> <h1>h1</h1> <h2& ...

[Hive_9] Hive 的排序

0. 说明

1. 前期准备

1.1 建表

1.2 设置 reduce 个数

2. 全排序（order by）

3. 部分排序（sort by ）

4. hash 分区（distribute by ）

5. cluster by

[Hive_9] Hive 的排序的更多相关文章

随机推荐

热门专题

　　1.1 建表

　　1.2 设置 reduce 个数