1 Hive中的数据定义

1.1 存储与创建

Hive会为每个数据库创建一个目录。数据库中的表以子目录的形式存储。

有一个例外是default中的表，因为这个库本身没有目录。

数据库的顶级目录是hive.metastore.warehuse.dir所指定的目录。

假设用户使用的是默认配置/user/hive/warehuse，那么我们创建数据库test时，会对应创建一个目录/user/hive/warehuse/test.db（数据库目录是以.db结尾的）。

可以通过如下命令进行修改：

hive> CREATE DATABASE test LOCATION '/mylocation';

可以命令可以查看该数据库的描述：

hive> DESCRIBE DATABASE test;

1.2 创建表

hive创建表的语句遵从SQL语句习惯，但是hive有一些扩展：

hive> CREATE TABLE [IF NOT EXISTS] [db_name.]table_name

　　> [(col_name data_type [COMMENT col_comment], ...)] [

　　> COMMENT table_comment]

　　> [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

　　> [LOCATION hdfs_path]

1）PARTITIONED 表示的是分区，不同的分区会以文件夹的形式存在，在查询的时候指定分区查询将会大大加快查询的时间

2）LOCATION指的是在HDFS上存储的位置

当然这里列举的是常用的选项。

1.3 外部表与内部表

1）创建表时：创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。

2）删除表时：在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。

2 Hive中的数据操作

2.1 Hive四种数据导入方式

1）从本地文件系统中导入数据到Hive表

先在Hive里面创建好表：

hive> create table lac

    > (id int, name string,

    > age int, tel string)

    > ROW FORMAT DELIMITED

    > FIELDS TERMINATED BY '\t'

    > STORED AS TEXTFILE;

本地文件系统里面有个/home/xinniu/lac.txt文件，内容如下：

1       wyp     25      13188888888888

2       test    30      13888888888888

3       zs      34      899314121

lac.txt文件中的数据列之间是使用\t分割的，可以通过下面的语句将这个文件里面的数据导入到lac表里面，操作如下：

hive> load data local inpath 'lac.txt' into table lac;

这样就将lac.txt里面的内容导入到wyp表里面去了，可以到lac表的数据目录下查看，如下命令

hive> dfs -ls /user/hive/warehouse/lac;

注意：

和我们熟悉的关系型数据库不一样，Hive现在还不支持在insert语句里面直接给出一组记录的文字形式，也就是说，Hive并不支持INSERT INTO …. VALUES形式的语句。

2）HDFS上导入数据到Hive表

假设有下面这个文件/home/xinniu/lac.txt，文件内容和上面一样，具体的操作如下：

bin/hadoop fs -cat /home/xinniu/lac.txt

3）从别的表中查询出相应的数据并导入到Hive表中

假设Hive中有test表，其建表语句如下所示

hive> create table test(

    > id int, name string

    > ,tel string)

    > partitioned by

    > (age int)

    > ROW FORMAT DELIMITED

    > FIELDS TERMINATED BY '\t'

    > STORED AS TEXTFILE;

下面语句就是将lac表中的查询结果并插入到test表中：

hive> insert into table test

    > partition (age='')

    > select id, name, tel

    > from lac;

4）在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中

hive> create table test2

    > as

    > select id, name, tel

    > from lac;

2.2 导出数据

1）导出到本地文件系统

hive> insert overwrite local directory '/home/xinniu/lac'

    > select * from lac;

2）导出到HDFS中

hive> insert overwrite directory '/home/xinniu/hdfs'

    > select * from lac;

注意，和导出文件到本地文件系统的HQL少一个local，数据的存放路径就不一样了。

3）导出到Hive的另一个表中

hive> insert into table test

    > partition (age='')

    > select id, name, tel

    > from lac;

Hive入门（一）的更多相关文章

4 weekend110的hive入门
查看企业公认的最新稳定版本: https://archive.apache.org/dist/ Hive和HBase都很重要,当然啦,各自也有自己的替代品. 在公司里,SQL有局限,大部 ...
hadoop笔记之Hive入门(Hive的体系结构)
Hive入门(二) Hive入门(二) Hive的体系结构 ○ Hive的元数据 Hive将元数据存储在数据库中(metastore),支持mysql.derby.oracle等数据库,Hive默认是 ...
hadoop笔记之Hive入门(什么是Hive)
Hive入门(一) Hive入门(一) 什么是Hive? Hive是个数据仓库,数据仓库就是数据库,但又与一般意义上的数据库有点区别实际上,Hive是构建在hadoop HDFS上的一个数据仓库. ...
Hive入门学习随笔（一）
Hive入门学习随笔(一) ===什么是Hive? 它可以来保存我们的数据,Hive的数据仓库与传统意义上的数据仓库还有区别. Hive跟传统方式是不一样的,Hive是建立在Hadoop HDFS基础 ...
第1章 Hive入门
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提 ...
hive入门（一）、什么是hive
1.Hive 基本概念 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能: Hive是构建在Hadoop 之上的数据仓库: 使用HQL作为查询 ...
Hive入门学习--HIve简介
现在想要应聘大数据分析或者数据挖掘岗位,很多都需要会使用Hive,Mapreduce,Hadoop等这些大数据分析技术.为了充实自己就先从简单的Hive开始吧.接下来的几篇文章是记录我如何入门学习Hi ...
Hive Tutorial（上）（Hive 入门指导）
用户指导 Hive 指导 Hive指导概念 Hive是什么 Hive不是什么获得和开始数据单元类型系统内置操作符和方法语言性能用法和例子(在<下>里面) 概念 Hive是什么 ...
《OD大数据实战》Hive入门实例
官方参考文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual 一.命令行和客户端 1. 命令窗口 1)进入命令窗口 hi ...
Hive入门之UDFS函数
一．UDFS函数介绍 1. 基本UDF (1)SHOWFUNCTIONS:这个用来熟悉未知函数. DESCRIBE FUNCTION<function_name>; (2)A IS NUL ...

随机推荐

Cocostudio学习笔记（3） ImageView + Slider
此记录使用两个控制流:ImageView 和 Slide. ---------------------------------------------------------------------- ...
避免让WPF资源字典变得杂乱臃肿
原文:避免让WPF资源字典变得杂乱臃肿避免让WPF资源字典变得杂乱臃肿周银辉今天看到项目种的一个XXXResource.xaml文件代码 ...
漫谈 KVC 与 KVO
KVC 与 KVO 无疑是 Cocoa 提供给我们的一个非常强大的特性,使用熟练可以让我们的代码变得非常简洁并且易读.但 KVC 与 KVO 提供的 API 又是比较复杂的,绝对超出我们不经深究之前所 ...
VS2012发布到XP平台
默认情况下,你的VS2012工程发布后,在XP下运行会出现提示“not a valid win32 application”. 微软推出了Visual Studio 2012 update 1可以支持 ...
调用API函数减少c#内存占用（20+m减至1m以下)
原文:调用API函数减少c#内存占用(20+m减至1m以下) c#虽然内置垃圾回收机制,但是并不能解决程序占用内存庞大的问题,如果我们仔细观察任务管理器,我们会发现一个程序如果最小化的时候,它所占用的 ...
深度分析WM_PAINT和WM_ERASEBKGND消息
做windows开发这么久了,一直以来对WM_PAINT和WM_ERASEBKGND消息总是感觉理解的不准确,每次要自绘一个窗口都因为知其然不知其所以然,偶然发现一篇文章,详细透彻地分了这个两个消息的 ...
LIBCMTD.lib(exe_winmain.obj) : error LNK2019: 无法解析的外部符号 _WinMain@16，该符号在函数 "int __cdecl invoke_main(void)" (?invoke_main@@YAHXZ) 中被引用
这个问题是没找到程序入口在网上查这个问题,一般都是说两条: (若是win32程序) 一是在项目属性\CC++\预处理器\预处理器定义\里添加 _WINDOWS 一是在项目属性\链接\系统里选择窗 ...
How to manipulate pixels on a bitmap by scanline property(Ma Xiaoguang and Ma Xiaoming)
We have been developing image processing software for above 14 years with old versions of Delphi, su ...
grep专题
grep -R --include="*.cpp" key dir[指定文件的扩展名] 上述命令的含义: 在dir目录下递归查找所有.cpp文件中的关键字key grep -r m ...
Linux升级OpenSSL版本
安装nginx的时候,出现了这样的问题: nginx : Depends: libssl1.0.0 (>= 1.0.2~beta3) but 1.0.1f-1ubuntu2.11 is to b ...

Hive入门（一）