Hive HQL学习

HQL学习

1.hive的数据类型

2.hive_DDL

2.1创建、删除、修改、使用数据库

Default数据库，默认的，优先级相对于其他数据库是最高的

2.2重点：创建表_内部表_外部表

hive通过sql来分析hdfs上结构化的数据，将数据文件映射为表的结构

– create table person(
– id int,
– name string,
– age int,
– likes array<string>,
– address map<string,string>
–)
– row format delimited
– FIELDS TERMINATED BY ','
– COLLECTION ITEMS TERMINATED BY '-'
– MAP KEYS TERMINATED BY ':'
– lines terminated by '\n';
–Select address[‘city’] from person where name=‘zs’

第一点注意：ROW FORMAT row_format

序列化和反序列化要对数据文件进行拆分映射到表里面，那么ROW FORMAT 加上 DELIMITED 就是指定序列化和反序列化的规则，通俗讲就是如何进行数据的拆分，重写的规则就是ROW FORMAT 加上 SERDE

比如：

FIELDS TERMINATED BY ',' 指定一行数据的字段按照，分割

COLLECTION ITEMS TERMINATED BY '-' 如果是集合，按照-分割集合中的每个元素

MAP KEYS TERMINATED BY ':' map类型的按照：分割

LINES TERMINATED BY '\N' 行之间按照换行符分割，这也是默认的

第二点注意：STORED AS file_format

它指定文件在hdfs上以什么格式进行存储，默认是TEXTFILE

其他几种方式在存储时可以指定压缩，使用压缩（好处：减少磁盘占用空间，坏处：写的时候进行压缩，读的时候进行解压缩，都需要占用cpu资源，效率会打折扣）

第三点注意：定义字段时的特殊类型（array，map，struct）

第四点注意：想想插入测试数据（上面的那三条）会用insert语句么？

也可以，但是不会那样做，因为insert底层转化为MR

所以这里采用另一种方式：

LOCAL：如果数据存在本地需要加LOCAL；如果存在hdfs上就不用了

如果是本地，那麽这种方式先上传到hdfs中一个临时文件，再将临时文件移动到hive中对应的数据存放目录下

如果是将hdfs中的数据加载进表，那么这种方式实际是讲hdfs中的数据文件移动到了hive的dir下（/user/hive/warehouse)

第五点注意：外部表

创建外部表时，需要指定数据存放的位置

创建外部表,会在hdfs中LOCATION指定的路径下创建和表名对应的目录

（而创建内部表，会在hive-site.xml中配置的dir下创建对应的目录）

删除内部表和外部表的区别?

1.删除内部表，会元数据信息联同数据一块进行删除（内部表数据的维护交由hive本身进行管理）

2.删除外部表，只会删除元数据信息，但是在hdfs上存储的数据还在（外部表则不是）

truncate table 表名

第六点注意：将子查询的结果存储到新表中

第一步：创建了表；第二部：将查出的结果插入到表中(注意这种方式在创建表时不能指定列，否则就会报错)

6.1这种方式什么时候会用？

创建中间表的时候，如果需要一些数据可以通过这种方式来做。

6.2这种方式和 create table psn4 like psn3 的区别？

3.hive_分区

1.分区表什么时候会用？

举例一：比如有一张人员表，分析一些日志数据，可以按照天进行分区，那么每一天的数据会存放在对应的分区中（会存储在每一天的目录下面）

举例二：有一个很大的表，里面存放了很多的日志，这时候可以采用分区，进行标识，分块管理

注意：分区的字段一定不能在表的列名里面

2.分区表的创建，添加数据，查看对应分区下的数据，修改分区、删除分区

创建带有分区的表psn5

创建了分区，进行插入数据，就需要指定分区字段，否则就会报错

查看表，发现有两个分区（boy, girl）

在hdfs中查看，发现目录下有两个目录对应两个分区

查看指定分区下的数据

select * from psn5 where sex = 'boy'

添加分区

ALTER TABLE psn5 ADD PARTITION (sex = 'weizhi') //在一个表中添加一个分区

ALTER TABLE psn5 DROP PARTITION (sex = 'weizhi') //同时删除对应分区中的数据

---分区_指定两个分区字段
create table psn5(
id int,
name string,
likes ARRAY <string>,
address MAP <string, string>
)
PARTITIONED BY(sex string，age int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY '-'
MAP KEYS TERMINATED BY ':';
---创建分区后，再进行插入数据，就需要指定分区字段
load data local inpath '/root/data' into table psn5 partition (sex='boy',age=1);

删除分区的时候，一定要注意（分区下可能还有分区）

4.hive_DML

重点掌握1：load data方式，2：from insert ...插入数据

1.创建psn7,将数据从psn1中查出来，插入到psn7中

create table psn7 like psn1;
from psn1
insert into table psn7 select id, name, likes, address

思考一：hive其实就是写sql来分析hdfs上的数据，那么问题来了，以上这种方式做什么用？

比如我们要分析一个WordCount,那么结果只是显示在控制台么，显然不是，我们要将hive sql运行的结果存储到另一张表中

思考二：为什么要将from放在上面呢？

我们将对同一张表分析的多个指标写到结果表中，就不用写多个sql了，要不还需要join

附件列表

Hive HQL学习的更多相关文章

Hive入门学习随笔（一）
Hive入门学习随笔(一) ===什么是Hive? 它可以来保存我们的数据,Hive的数据仓库与传统意义上的数据仓库还有区别. Hive跟传统方式是不一样的,Hive是建立在Hadoop HDFS基础 ...
hive的学习入门（飞进数据仓库的小蜜蜂）
前言 hive是构建在Hadoop上的数据仓库平台,其设计目标是:使Hadoop上的数据操作与传统的SQL结合,让熟悉sql的开发人员能够轻松的像Hadoop平台迁移. Hive是Facebook的信 ...
Hive入门学习
Hive学习之路 (一)Hive初识目录 Hive 简介什么是Hive 为什么使用 Hive Hive 特点 Hive 和 RDBMS 的对比 Hive的架构 1.用户接口: shell/CLI, ...
Hive深入学习--应用场景及架构原理
Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的.互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核 ...
Hive 体系学习
Hive简介 Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并使用HQL作为查询接口.HDFS作为存储底层.MapReduce作为执行层,将HQL语句转换成M ...
60分钟内从零起步驾驭Hive实战学习笔记
本博文的主要内容是: 1. Hive本质解析 2. Hive安装实战 3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive.Spark原来没有做SQL ...
Hive基础学习
Hive 学习记录Hive介绍:Hive 是起源于Facebook,使得Hadoop进行SQL查询成为可能,进而使得非程序员也可以进进行对其使用:它是一种数据仓库工具,将结构化的数据文件映射为一张数 ...
Hive入门学习--HIve简介
现在想要应聘大数据分析或者数据挖掘岗位,很多都需要会使用Hive,Mapreduce,Hadoop等这些大数据分析技术.为了充实自己就先从简单的Hive开始吧.接下来的几篇文章是记录我如何入门学习Hi ...
hive入门学习线路指导
hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念.原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助.此篇内容较多:看完之后需要达到的目标1.hive是什 ...

随机推荐

Hello 2018, Bye 2017
2017年过去了,过去一年经历了太多,改变了好多好多,可以说人生进入了另一个阶段,有可能是成熟吧. 回顾2017 去年换了新工作,离开了将近工作了8年的公司,不带走一丝云彩,为其任劳任怨,最后没有任何 ...
CKEditor 集成CKFinder集成
lCKEditor原名FckEditor,著名的HTML编辑器,可以在线编辑HTML内容,演示一下.打开.自己人用CKEditor,网友用UBBEditor. l配置参考文档,主要将ckeditor中 ...
C#的发展已经15年了。。。历史发展
C#是微软公司在2000年6月发布的一种新的编程语言,主要由安德斯·海尔斯伯格(Anders Hejlsberg)主持开发,它是第一个面向组件的编程语言,其源码会编译成msil再运行.它借鉴了Delp ...
ArcGIS API for Javascript 加载天地图（墨卡托投影）
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
python匿名函数
文章导读: 以前自己一直没搞明白Python中的匿名函数,现在拿这个问题基本上搞明白了,拿自己的理解整成一篇文章,附带大量例子,让其更加好理解. 在编程语言中,函数的应用: 1. 代码块重复,这时候必 ...
ThreadLocal 线程本地变量及源码分析
■ ThreadLocal 定义 ThreadLocal通过为每个线程提供一个独立的变量副本解决了变量并发访问的冲突问题当使用ThreadLocal维护变量时,ThreadLocal为每个使用该变量 ...
centos 打包RPM包 ntopng
需要在centos7上,将ntopng及其依赖的包一起打包成rpm包,了解centos7打包. 1.执行: yum -y install rpmdevtools 安装rpm工具 2.接下来执行:rp ...
python实现散列表的直接寻址法
散列表(Hash table,也叫哈希表),是根据键(Key)而直接访问在内存存储位置的数据结构.也就是说,它通过计算一个关于键值的函数, 将所需查询的数据映射到表中一个位置来访问记录,这加快了查找速 ...
转: 谈JAVA_OPTS环境变量不起作用
谈JAVA_OPTS环境变量不起作用 2016-6-14 11:12 最近在处理运行一个java应用时,老是出现java.lang.OutOfMemoryError: Java heap space. ...
TP框架如何开启log日志
1. 日志的处理工作是由系统自动进行的,在开启日志记录的情况下,会记录下允许的日志级别的所有日志信息. 其中,为了性能考虑,SQL日志级别必须在调试模式开启下有效,否则就不会记录. 系统的日志记录由核 ...