0. 说明

  在 Hive 中进行 join 操作


1. 操作步骤

  1.0 建表

  在 hiveserver2 服务启动的前提下,在 Beeline客户端中输入以下命令

# 新建顾客表
create table customers(id int, name string, age int) row format delimited fields terminated by '\t'; # 新建订单表
create table orders(oid int, oname string, oprice float, uid int) row format delimited fields terminated by '\t';

  1.1 创建并插入数据

  创建,略

  插入命令如下:

# 插入顾客数据
load data local inpath '/home/centos/files/customers.txt' into table customers; # 插入订单数据
load data local inpath '/home/centos/files/orders.txt' into table orders;

  1.2 使用 join

# 内连接
select a.id, a.name, b.oname, b.oprice from customers a inner join orders b on a.id=b.uid;
# 左外连接
select a.id, a.name, b.oname, b.oprice from customers a left outer join orders b on a.id=b.uid;
# 右外连接
select a.id, a.name, b.oname, b.oprice from customers a right outer join orders b on a.id=b.uid;
# 全外连接
select a.id, a.name, b.oname, b.oprice from customers a full outer join orders b on a.id=b.uid;

2. join 的分类与优化

  2.1 普通 join

select a.id, a.name, b.orderno, b.oprice from customers a inner join orders b on a.id=b.cid;

  a inner join b  // 返回行数 a ∩ b

  a left [outer] join b   // 返回行数 a

  a right [outer] join b  // 返回行数 b

  a full [outer] join b  // 返回行数 a+b - (a ∩ b)

  a cross join b  // 返回行数 a * b

2.2 特殊 join 优化

  map join

  小表+大表 => 将小表加入到分布式缓存,通过迭代大表所有数据进行处理

  在老版的 Hive 中(0.7)之前,所有的 join 操作都是在 reduce 端执行的(reduce 端 join)
  想要进行 map 端 join,需要进行以下操作

  SET hive.auto.convert.join=true;
  声明暗示 a join b , a小表,b大表
  /*+ mapjoin(小表) */

  SELECT /*+ MAPJOIN(a) */ a.id, a.name, b.orderno, b.oprice from customers a inner join orders b on a.id=b.cid;

  在新版 Hive 中,如果想要进行 map 端 join

  jdbc:hive2://> SET hive.auto.convert.join=true;  //设置自动转换成 map 端 join
  jdbc:hive2://> SET hive.mapjoin.smalltable.filesize=600000000;  //设置 map 端 join 中小表的最大值,默认25M

common join

  即 reduce 端 join
  1. 声明暗示,指定大表
  /*+ STREAMTABLE(大表) */

  2. 将大表放在右侧

2.3 测试

  测试:customers 和 orders

  1. 不写任何暗示,观察是 map 端 join 还是 reduce join

SELECT a.no, a.name, b.oname, b.oprice from customers a inner join orders b on a.no=b.uid;

  2. 写暗示,观察效果

SELECT /*+ MAPJOIN(a) */ a.no, a.name, b.oname, b.oprice from customers a inner join orders b on a.no=b.uid;

  3. 将自动转换 map join 设置成 false

SET hive.auto.convert.join=false;

  4. 写 reduce 端 join 的暗示,观察结果

SELECT /*+ STREAMTABLE(a) */ a.no, a.name, b.oname, b.oprice from customers a inner join orders b on a.no=b.uid;

[Hive_add_5] Hive 的 join 操作的更多相关文章

  1. hive:join操作

    hive的多表连接,都会转换成多个MR job,每一个MR job在hive中均称为Join阶段.按照join程序最后一个表应该尽量是大表,因为join前一阶段生成的数据会存在于Reducer 的bu ...

  2. Hive中JOIN操作

    1. 只支持相等JOIN. 2. 多表连接当使用不同的列进行JOIN时,会产生多个MR作业. 3. 最后的表的数据是从流中读取,而前面的会在内存中缓存,因此最好把最大的表放在最后. SELECT /* ...

  3. hive中的子查询改join操作(转)

    这些子查询在oracle和mysql等数据库中都能执行,但是在hive中却不支持,但是我们可以把这些查询语句改为join操作: -- 1.子查询 select * from A a where a.u ...

  4. 使用MapReduce实现join操作

     在关系型数据库中,要实现join操作是非常方便的,通过sql定义的join原语就可以实现.在hdfs存储的海量数据中,要实现join操作,可以通过HiveQL很方便地实现.不过HiveQL也是转化成 ...

  5. HIVE: Map Join Vs Common Join, and SMB

    HIVE  Map Join is nothing but the extended version of Hash Join of SQL Server - just extending Hash ...

  6. MapReduce 实现数据join操作

    前段时间有一个业务需求,要在外网商品(TOPB2C)信息中加入 联营自营 识别的字段.但存在的一个问题是,商品信息 和 自营联营标示数据是 两份数据:商品信息较大,是存放在hbase中.他们之前唯一的 ...

  7. Hive中Join的原理和机制

    转自:http://lxw1234.com/archives/2015/06/313.htm 笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Joi ...

  8. hive的join

    第一:在map端产生join          mapJoin的主要意思就是,当链接的两个表是一个比较小的表和一个特别大的表的时候,我们把比较小的table直接放到内存中去,然后再对比较大的表格进行m ...

  9. hive的join查询

    hive的join查询 语法 join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_refere ...

随机推荐

  1. Android Handler 机制总结

    写 Handler 原理的文章很多,就不重复写了,写不出啥新花样.这篇文章的主要是对 handler 原理的总结. 1.Android消息机制是什么? Android消息机制 主要指 Handler ...

  2. Url的Base64编码以及解码

    Base64可以将二进制转码成可见字符方便进行http传输,但是base64转码时会生成“+”,“/”,“=”这些被URL进行转码的特殊字符,导致两方面数据不一致.我们可以在发送前将“+”,“/”,“ ...

  3. 第五讲 smart qq poll包处理 以及 私聊 群聊消息收发

    发送 poll包 public static void Login_PostPoll() { try { string url = "http://d1.web2.qq.com/channe ...

  4. Java细节整理——数组与内存控制

    重点:使用Java数组之前,必须对数组对象进行初始化. 当数组的所有元素都被分配了合适的内存空间,并指定了初始值时,数组的初始化完成.程序以后将不能重新改变数组对象在内存中的位置和大小. 知识点整理: ...

  5. python使用tcp实现一个简单的下载器

    上一篇中介绍了tcp的流程,本篇通过写一个简单的文件下载器程序来巩固之前学的知识. 文件下载器的流程如下: 客户端: 输入目标服务器的ip和port 输入要下载文件的名称 从服务器下载文件保存到本地 ...

  6. Android Studio 学习(五)网络

    HttpURLConnection OkHttp 添加依赖 编辑 app/build.gradle 在dependencies闭包中添加 implementation 'com.squareup.ok ...

  7. 大数据Spark与Storm技术选型

    先做一个对比:   对比点 Storm Spark Streaming 实时计算模型 纯实时,来一条数据,处理一条数据 准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理 实时计算延迟度 毫 ...

  8. redux 入门

    背景: 在react中使用redux 重点:不要滥用redux,如果你的页面非常简单,没有 那么多的互动,那么就不要使用redux,反而会增加项目的复杂性. 如果你有以下情况,则可以考虑使用redux ...

  9. div添加cursor:pointer;失效问题。

    如果你不小心给其它盒子设置了z-index属性显示在最上层而又没有将该盒子进行隐藏. <style> .bottom { position: absolute; width:100px; ...

  10. PHP7.27: pdf

    http://www.fpdf.org/ https://github.com/Setasign/FPDF https://www.ntaso.com/fpdf-and-chinese-charact ...