对比hive和mysql查询汇总

由于底层的处理机制大不相同，hive和mysql在查询上还是有较大差异的！

单个表的select操作

最简单的查询

，字段2 frome 表名 where 字段 [not]in(元素1，元素2)；

例：select * from t_student where age in (21,23);

select * from t_student where age not in (21,23);

带between and的范围查询：select 字段1，字段2 frome 表名 where 字段 [not]between 取值1 and 取值2；

例：select * frome t_student where age between 21 and 29;

select * frome t_student where age not between 21 and 29;

带like的模糊查询：select 字段1，字段2... frome 表名 where 字段 [not] like '字符串'；

"%"代表任意字符；

"_"代表单个字符；

空值查询：select 字段1，字段2...frome 表名 where 字段 is[not] null;

带and的多条件查询：

select 字段1，字段2...frome 表名 where 条件表达式1 and 条件表达式2 [and 条件表达式n]

例：select * frome t_student where gradeName='一年级' and age=23；

带or的多条件查询

select 字段1，字段2...frome 表名 where 条件表达式1 or 条件表达式2 [or 条件表达式n]

例：select * frome t_student where gradeName='一年级' or age=23；//或者，条件只要满足一个

distinct去重复查询：select distinct 字段名 from 表名

Orderby 和sortby 的区别（前者是要mapreduce操作后者在本机上排序）

分组查询 group by 属性名 [having 条件表达式][with rollup]

常用函数：count group_concat rollup

1.select gradeName,count(stuName) from t_student group by gradeName;

2.select gradeName,count(stuName) from t_student group by gradeName having count(stuName)>3;

3.select gradeName,group_concat(stuName) from t_student group by gradeName with rollup;

子查询

0.一般嵌套子查询

1.带比较运算符的子查询（子查询可以使用比较运算符）

select * from t_book where price>=(select price from t_priceLevel where priceLevel=1);

2. 带in关键字的子查询（一个查询语句的条件可能落在另一个select语句的查询结果中）

select * from t_book where bookType in(select id from t_bookType);

select * from t_book where bookType not in(select id from t_bookType);

3.带exists关键字的子查询（加入子查询查询到记录，则进行外层查询，否则，不执行外层查询）

select * from t_book where exists(select * from t_booktype);

select * from t_book where not exists(select * from t_booktype);

4.带any关键字的子查询（any关键字表示满足其中任一条件）

select * from t_book where price>= any(select price from t_priceLevel);

5.带all关键字的子查询（all关键字表示满足所有条件）

select * from t_book where price>= all(select price from t_priceLevel);

2,3,4,5 目前仅mysql支持

Hive中有基于partition的查询，从效率上讲是一个剪枝的过程

多表连接查询

Mysql中支持内连接，左右外连接（注意外连接的工作原理，没有匹配项返回null，可用where过滤），级联多表连接的时候，从中间解读；

与此对应hive中有内连接join，外连接（left/right outer join）加上full outer join（全表关联），semi join是用来在hive中解决in exists子查询的问题。

Hive的join可大致划分为common join 和map join ,两者的区别在于后者应用于大小表数据倾斜的情况具体参考http://www.cnblogs.com/1130136248wlxk/articles/5517628.html

Map完输出为相同key的list，然而按照hash分发到不同reduce的task中。

合并查询

1.union

使用union关键字是，数据库系统会将所有的查询结果合并到一起，然后去掉相同的记录；

select id from t_book union select id from t_bookType;

2.union all

使用union all，不会去除掉重复的记录；

select id from t_book union all select id from t_bookType;

补充:hive 性能优化方向

列剪裁分区剪裁需要设定相关参数

join 小表依次放在前面，左边的在reduce阶段要放进内存，减少内存发生溢出的几率

map join 用于小表和大表的倾斜情况

对比hive和mysql查询汇总的更多相关文章

对比hive和mysql 复杂逻辑流处理
1.Mysql中可用存储过程和函数来实现复杂逻辑处理,两者的对比如下:存储过程作为可执行文件,编译一次放在数据库中,函数又返回值.可设定使用权限. 存储过程中可使用游标,声明变量.用call调用. ...
MySQL查询不使用索引汇总 + 如何优化sql语句
不使用索引原文 : http://itlab.idcquan.com/linux/MYSQL/918330.html MySQL查询不使用索引汇总众所周知,增加索引是提高查询速度的有效途径,但是很多 ...
Hive笔记——技术点汇总
目录 · 概况 · 手工安装 · 引言 · 创建HDFS目录 · 创建元数据库 · 配置文件 · 测试 · 原理 · 架构 · 与关系型数据库对比 · API · WordCount · 命令 · 数 ...
Mysql查询优化汇总 order by优化例子，group by优化例子，limit优化例子，优化建议
Mysql查询优化汇总 order by优化例子,group by优化例子,limit优化例子,优化建议索引索引是一种存储引擎快速查询记录的一种数据结构. 注意 MYSQL一次查询只能使用一个索引 ...
mysql查询性能优化
mysql查询过程: 客户端发送查询请求. 服务器检查查询缓存,如果命中缓存,则返回结果,否则,继续执行. 服务器进行sql解析,预处理,再由优化器生成执行计划. Mysql调用存储引擎API执行优化 ...
[转]向facebook学习，通过协程实现mysql查询的异步化
FROM : 通过协程实现mysql查询的异步化前言最近学习了赵海平的演讲,了解到facebook的mysql查询可以进行异步化,从而提高性能.由于facebook实现的比较早,他们不得不对php ...
MySQL笔记汇总
[目录] MySQL笔记汇总一.mysql简介数据简介结构化查询语言二.mysql命令行操作三.数据库(表)更改表相关字段相关索引相关表引擎操作四.数据库类型数字型字符串型日 ...
MySQL查询数据表中数据记录（包括多表查询）
MySQL查询数据表中数据记录(包括多表查询) 在MySQL中创建数据库的目的是为了使用其中的数据. 使用select查询语句可以从数据库中把数据查询出来. select语句的语法格式如下: sele ...
Mysql查询库、表存储量(Size)
Mysql查询库.表存储量(Size) 1.要查询表所占的容量,就是把表的数据和索引加起来就可以了. SELECT SUM(DATA_LENGTH) + SUM(INDEX_LENGTH) FROM ...

随机推荐

Yarn 的工作流-创建一个新项目
Microsoft Windows [版本 10.0.16299.125] (c) Microsoft Corporation.保留所有权利. C:\Users\Administrator>cd ...
VirtualMachineManager
Java Code Examples for com.sun.jdi.VirtualMachineManager https://www.programcreek.com/java-api-examp ...
用JAVA生成老电影海报
先看图,再讲原理.生成效果对照: 机器全自己主动生成.是不是非常酷炫?:) 数字图像,由无数个像素组成,通常情况下,每一个像素包括有RGB三个值,算法原理事实上非常easy: 一,遍历全部像素,将RG ...
Android之应用程序怎样调用支付宝接口
http://blog.csdn.net/lilidejing/article/details/19483717 近期在做一个关于购物商城的项目,项目里面付款这块我选的是调用支付宝的接口.由于用的人比 ...
进程间通信之-共享内存Shared Memory--linux内核剖析（十一）
共享内存共享内存是进程间通信中最简单的方式之中的一个. 共享内存是系统出于多个进程之间通讯的考虑,而预留的的一块内存区. 共享内存同意两个或很多其他进程訪问同一块内存,就如同 malloc() 函数 ...
oss
import oss2 ''' auth = oss2.Auth('您的AccessKeyId', '您的AccessKeySecret') bucket = oss2.Bucket(auth, '您 ...
在64位的ubuntu 14.04 上开展32位Qt 程序开发环境配置（pro文件中增加 QMAKE_CXXFLAGS += -m32 命令）
为了能中一个系统上开发64或32位C++程序,费了些周折,现在终于能够开始干过了.在此记录此时针对Q5.4版本的32位开发环境配置过程. 1. 下载Qt 5.4 的32位版本,进行安装,安装过程中会发 ...
Bing必应地图中国API-放大与平移
Bing必应地图中国API-放大与平移 2011-05-24 14:26:32| 分类: Bing&Google|字号订阅有些时候我们不希望通过默认的控制栏来控制地图,而是希望能 ...
并不对劲的[noi2006]网络收费
题目略长,就从大视野上复制了. 听上去好像费用流,然而…… ***************************表示略长的题目的分界线************************ 1495: [ ...
POJ 2728 Desert King (最优比例生成树)
POJ2728 无向图中对每条边i 有两个权值wi 和vi 求一个生成树使得 (w1+w2+...wn-1)/(v1+v2+...+vn-1)最小. 采用二分答案mid的思想. 将边的权值改为 wi- ...

对比hive和mysql查询汇总

对比hive和mysql查询汇总的更多相关文章

随机推荐

热门专题