hive 连接（join）查询

1、内连接

hive> select b.*,a.name from userinfo2 b,userinfo a  where a.userid=b.userid;

hive> select b.*,a.name from userinfo2 b join userinfo a on a.userid=b.userid;

2、外连接

#左联
select b.*,a.name from userinfo2 b left join userinfo a on a.userid=b.userid;

#右联

hive> select a.*,b.name from userinfo b right join userinfo2 a on a.userid=b.userid;

全连接，两边都全显示

hive> select a.*,b.name from userinfo b right join userinfo2 a on a.userid=b.userid;

3、半连接

hive> select * from userinfo2 a where a.userid in (select userid from userinfo);

#left semi join必须遵守一个规则：右表（userinfo）只能在on子句里出现，也不能在where子句以及select中出现

hive> select * from userinfo2 a left semi join userinfo b on (a.userid=b.userid);

4、map连接

在之前的内联查询中：

select b.*,a.name from userinfo2 b join userinfo a on a.userid=b.userid;

如果有一个连接表小到可以放入内存，例如userinfo表，hive就可以较小的表放入每个mapper的内存中来执行连接,这就是map连接。

执行这个查询不使用reducer，因此这个查询对right和full join无效，因为只有在对所有输入上进行聚集的步骤（即reduce）才能检测到哪个数据行无法匹配。

map连接可以利用分桶表，需要设置hive.optimize.bucketmapjoin=true

5、子查询，Hive只支持在FROM子句中使用子查询，子查询必须有名字，并且列必须唯一：SELECT ... FROM(subquery) name ...

某些情况子查询可以出现在where子句中，本文中第三点半连接就是子查询，子查询可以出现在where的in或者是exists中。

#子查询的列名必须有唯一的列名。
hive> select year,avg(max_data) from (select year,max(data) as max_data from weather_data group by year) mt group by year;

hive 连接（join）查询的更多相关文章

hive的join查询
hive的join查询语法 join_table: table_reference [INNER] JOIN table_factor [join_condition] | table_refere ...
[Hadoop大数据]——Hive连接JOIN用例详解
SQL里面通常都会用Join来连接两个表,做复杂的关联查询.比如用户表和订单表,能通过join得到某个用户购买的产品:或者某个产品被购买的人群.... Hive也支持这样的操作,而且由于Hive底层运 ...
Hive学习：Hive连接JOIN用例详解
1 准备数据: 1.1 t_1 01 张三 02 李四 03 王五 04 马六 05 小七 06 二狗 1.2 t_2 01 11 03 33 04 44 06 66 07 77 08 88 1.3 ...
Hive的join表连接查询的一些注意事项
Hive支持的表连接查询的语法: join_table: table_reference JOIN table_factor [join_condition] | table_reference {L ...
《Entity Framework 6 Recipes》中文翻译系列 (19) -----第三章查询之使用位操作和多属性连接(join)
翻译的初衷以及为什么选择<Entity Framework 6 Recipes>来学习,请看本系列开篇 3-16 过滤中使用位操作问题你想在查询的过滤条件中使用位操作. 解决方案假 ...
Hibernate中用left join（左外连接）查询映射中没有关联关系的两个表记录问题
一.问题背景分账表split_summary结构如下: create table SPLIT_SUMMARY ( uuid VARCHAR2(32) not null, star_tdate VAR ...
(十一) 数据库查询处理之连接(Join)
(十一) 数据库查询处理之连接(Join) 1. 连接操作的一个例子把外层关系和内层关系中满足一定关系的属性值拼接成一个新的元组一种现在仍然十分有用的优化思路Late Materializatio ...
hive：join操作
hive的多表连接,都会转换成多个MR job,每一个MR job在hive中均称为Join阶段.按照join程序最后一个表应该尽量是大表,因为join前一阶段生成的数据会存在于Reducer 的bu ...
Hive 中Join的专题---Join详解
1.什么是等值连接? 2.hive转换多表join时,如果每个表在join字句中,使用的都是同一个列,该如何处理? 3.LEFT,RIGHT,FULL OUTER连接的作用是什么? 4.LEFT或RI ...
Hive[6] HiveQL 查询
6.1 SELECT ... FROM 语句 hive> SELECT name,salary FROM employees; --普通查询 hive>SELECT e.n ...

随机推荐

CF 547 D. Mike and Fish
D. Mike and Fish http://codeforces.com/contest/547/problem/D 题意: 给定平面上n个点,将这些点染成红或者蓝色,要求每行.每列红色点与蓝色点 ...
java 定义三分钟之前的时间
public String getCurrentTime(){SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss ...
eclipse集成testng插件（离线安装方式）
testng是一个优秀的测试框架,我们在开发自动化测试脚本或者框架的时候经常会用到这个框架,因为它不仅能方便的帮助我们管理测试类,而且它还提供了丰富的注解来支持各种测试场景的实现(参数化,数据提供者, ...
学习笔记之glog的使用
下载源码,使用cmake编译,最后得到了32位的静态库 glog.lib 使用库时要注意添加以下预定义: GLOG_NO_ABBREVIATED_SEVERITIES; GOOGLE_GLOG_DLL ...
天下武功，无快不破，Python开发必备的6个库
01 Python 必备之 PyPy PyPy 主要用于何处? 如果你需要更快的 Python 应用程序,最简单的实现的方法就是通过 PyPy ,Python 运行时与实时(JIT)编译器.与使用普通 ...
169.求众数 leetcode Javascript
给定一个大小为 n 的数组,找到其中的众数.众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素. 你可以假设数组是非空的,并且给定的数组总是存在众数. 示例 1: 输入: [3,2,3] 输出: 3 ...
Redis5.0：在这些场景使用，高效率还低成本！
很多大型电商网站.视频直播和游戏应用等,存在大规模数据访问,对数据查询效率要求高,且数据结构简单,不涉及太多关联查询. 这种场景使用Redis,在速度上对传统磁盘数据库有很大优势,能够有效减少数据库磁 ...
【RL系列】On-Policy与Off-Policy
强化学习大致上可分为两类,一类是Markov Decision Learning,另一类是与之相对的Model Free Learning 分为这两类是站在问题描述的角度上考虑的.同样在解决方案上存在 ...
redis 学习记录
http://www.yiibai.com/redis/redis_quick_guide.html Redis 是一款依据BSD开源协议发行的高性能Key-Value存储系统(cache and s ...
作业要求20181016-3 Alpha阶段第1周/共2周 Scrum立会报告+燃尽图 01
此次作业要求参见https://edu.cnblogs.com/campus/nenu/2018fall/homework/2246 Scrum master:范洪达一.小组介绍组长:王一可组员 ...

hive 连接（join）查询

hive 连接（join）查询的更多相关文章

随机推荐

热门专题