Hive Learning

HIVEQL和MYSQL最为接近

数据操作

SHOW TABLES IN crm_integration

Show tables 'dim_con*'

DESCRIBE EXTENDED crm_integration.itg_fact_sales_order

DESCRIBE FORMATTED crm_integration.itg_fact_sales_order

show partitions crm_integration.itg_fact_sales_order  --查看表中所有分区

DELETE TABLE

DROP TABLE IF EXSTS employees

.Trash(需要开启回收站功能)

ALTER TABLE log_MESSAGES RENAME TO logmsgs;

ALTER TABLE table ADD PARTITION…

ALTER TABLE logmessages DROP IF EXISTS PARTITION (year = 2011, month =12, _day =2 )

ALTER TABLE log ADD COLUMNS(app_name STRING COMMENT ‘application name’)

替换列:REPLACE

ARCHIVE PARTITION

保护:

ALTER TABLE logmessages DROP IF EXISTS PARTITION (year = 2011, month =12, day =2 ) ENABLE NO_DROP

ALTER TABLE logmessages DROP IF EXISTS PARTITION (year = 2011, month =12, day =2 ) ENABLE OFFLINE

装载数据

Load data local

Overwrite

集合数据类型中的元素提取:

SELECT name, subordinates[0] FROM employees;

SELECT name, deductions[“State Taxes”] FROM EMPLOYEES;

这里deductions列是一个map,jason格式。

引用struct中的元素,可以用点。

SELEFCT name, ADDRESS.CITY FROM EMPLOYEES;

正则表达式:

LIKE, RLIKE

LIMIT 2

谓词:

A<> B

A !=B

A is null

A IS NOT NULL

A LIKE B

A NOT LIKE B

A RLIKE B

A REGEXP B

JOIN(笛卡尔积) --消耗资源,不建议

LEFT OUTER JOIN

LEFT SEMI-JOIN:

返回左边表的记录,前提是记录对于右边表满足ON语句中的判定条件。Sql回通过IN…EXISTS结构来处理这种情况。

HIVE不支持RIGHT SEMI-JOIN

SEMI-JOIN比inner join要更高效。

SORT BY –每个reducer中对数据排序,局部排序过程

ORDER BY—全局有序

DISTRIBUTE BY –写在SORT BY 前面。

CLUSTER BY

数据类型:

CAST(SALARY AS FLOAT)

6.9 抽样查询:

RAND()

数据块抽样:

SELECT * FROM numbersflat TABLESAMPLE (0.1 PERCENT) s;

CREATE TABLE shipments2 LIKE shipment

索引:

Show FORMATTED INDEX ON employess

调优

EXPLAIN

EXPLAIN SELECT SUM(NUMBER) FROM onecol;

EXPLAIN EXTENDED

HIVE - HIVEQL学习笔记的更多相关文章

  1. HIVE优化学习笔记

    概述 之前写过关于hive的已经有两篇随笔了,但是作者依然还是一枚小白,现在把那些杂七杂八的总结一下,供以后查阅和总结.今天的文章介绍一下hive的优化.hive是好多公司都在使用的东西,也有好多大公 ...

  2. hive kettle 学习笔记

    学习网址 http://wiki.pentaho.com/display/BAD/Transforming+Data+within+Hive

  3. 60分钟内从零起步驾驭Hive实战学习笔记

    本博文的主要内容是: 1. Hive本质解析 2. Hive安装实战 3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive.Spark原来没有做SQL ...

  4. 60分钟内从零起步驾驭Hive实战学习笔记(Ubuntu里安装mysql)

    本博文的主要内容是: 1. Hive本质解析 2. Hive安装实战 3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive.Spark原来没有做SQL ...

  5. hive sql 学习笔记

    1.coalesce 语法: COALESCE ( expression [ ,...n ] ) 参数: expression 任何类型的表达式. 返回类型: 返回数据类型优先级最高的 express ...

  6. hive学习笔记之六:HiveQL基础

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  7. hive学习笔记之一:基本数据类型

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  8. hive学习笔记之三:内部表和外部表

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  9. hive学习笔记之四:分区表

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  10. hive学习笔记之五:分桶

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

随机推荐

  1. JZOJ 6664. 【2020.05.28省选模拟】最优化

    \(\text{Solution}\) 原题:\(\text{Honorable Mention}\) 一个费用流做法,\(S\) 向 \(2i-1\) 连流量为 \(1\),费用为 \(0\) 的边 ...

  2. 线性表的顺序存储C++代码

    ​ 我学习顺序表时找不到相关的代码,以及我不清楚写一个线性表需要的知识,当我写出来可以使用的线性表我就把这些内容贴了出来. 前置知识点:结构体,常量指针,new和delete 顺序表的特点: 需要一片 ...

  3. Solon v2.2.1 发布。向 Graalvm Native 友好靠近

    本次更新最重要的是增加了 Solon APT 项目,为更简单的完成 Graalvm Native 打包提供了帮助:其次是增加了 @ProxyComponent 和 @SolonMain 注解:以及优化 ...

  4. REDIS基础要点

    简述:redis 单实例,单进程,当线程处理用户请求数据,基于内存对数据处理.Redis默认分为0-16号库,每个库互相隔离(数据不共享) 基础复习: 1,系统中的每个进程对应有一个fd,通过网卡连接 ...

  5. C# 图片压缩(指定大小压缩和指定尺寸压缩)

    一按大小压缩测试代码: 一测试效果: 一主要代码: /// <summary> /// 压缩图片至200 Kb以下 /// </summary> /// <param n ...

  6. MSB/LSB的意思

    MSB一般指最高有效位. 最高有效位( most significant bit,MSB)指的是一个n位二进制数字中的n-1位,具有最高的权值2^(n-1).最低有效位和最高有效位是相对应的概念. L ...

  7. Linux常用的性能分析

    参考文档:https://www.runoob.com/w3cnote/linux-common-command-2.html 一.ps -aux ps -aux ps -ef -a:所有进程. -u ...

  8. 在Linux中实现打印目录程序遇到问题及解决

    今日阅读Linux程序设计第四版时,书中给出了一段实例代码,功能为实现/home目录下各级目录结构,当然不一定非得是/home下目录才可以,任何一级目录都可以. 自己尝试在Ubuntu系统运行编译,实 ...

  9. VS2010 发布网站总是连同cs文件一起发布了

    选择第一个,保存再发布.cs文件 都删除了.

  10. docker 部署mongodb 并建立用户和授权数据库

    docker pull mongo:4.4.8 (拉取镜像) docker run --name mongo -v /data/mongo-data:/data/db -p 27018:27017 - ...