Hive数据类型和DDL操作

hive命令

在Linux下的命令行中直接输入如下命令，可以查看帮助信息：

  1 # hive -help

常用的如-e、-f参数。

使用-e参数，可以直接在命令行传递SQL语句进行hive表数据的查询：

  1 # hive -e "select * from testhive.testtable"

使用-f参数，可以在命令行中传递文件进行进行hive表数据的查询，首先使用如下命令创建一个名为test.hql的文件：

  1 # vim test.hql

在该文件中写入SQL语句：

  1 select * from testhive.testtable

然后在Linux命令行执行如下命令：

  1 # hive -f test.hql

并且该执行查询的结果可以追加到文件中：

  1 # hive -f test.hql > result.txt

  2 # cat result.txt

执行如下命令，可以查看hive中执行过的所有历史命令：

  1 # cat .hivehistory

Hive的其他配置

现在hive查询出来的数据显示很不友好，为了显示数据头信息，通过如下配置文件项开启配置：

  1 <property>

  2     <name>hive.cli.print.header</name>

  3     <value>true</value>

  4 </property>

在Hive客户端中时，为了显示当前操作哪个数据库，通过如下配置文件项开启配置：

  1 <property>

  2     <name>hive.cli.print.current.db</name>

  3     <value>true</value>

  4 </property>

Hive的set

在Hive的客户端中，可以使用set命令进行配置，该配置当前操作有效：

  1 hive (default)> set hive.cli.print.current.db=false;

关闭了当前操作的数据库位置显示。

Hive的数据类型

基本数据类型

Hive的数据类型与Java的数据类型对应关系:

Hive数据类型	Java数据类型	描述
TINYINT	byte	1byte整数
SMALLINT	short	2byte整数
INT	int	4byte整数
BIGINT	long	8byte整数
BOOLEAN	boolean	true/false
FLOAT	float	单精度浮点数
DOUBLE	double	双精度浮点数
STRING	string	字符，可以用单引号或双引号
TIMESTAMP		时间类型
BINARY		字节数组

集合数据类型

数据类型	描述
STRUCT	结构体，通过“点”符号访问元素内容
MAP	一组键-值对元祖集合，使用数组表示法可以访问数据
ARRAY	是一组具有想同类型和名称的变量的集合

数据实例

DDL操作

DDL（Data Definition Language：数据定义语言）主要是用在定义表结构、改变表的结构、改变表数据类型、改变表之间的链接和约束等。

创建数据库

创建一个数据库：

  1 > create database db_testdb;

若创建的数据库已经存在，则会报错，这时可以使用if not exists判断：

  1 > create database if not exists db_testdb;

注意：标准写法是使用if not exists判断的创建数据库语句。

查询数据库

查询Hive中的数据库：

  1 > show databases;

查询数据库信息：

  1 > desc database db_testdb;

查询数据库详细信息（数据库有额外的属性时）：

  1 > desc database extended db_testdb;

切换数据库：

  1 > use testhive;

删除数据库

删除空的数据库：

  1 > drop database db_testdb;

若删除的数据库不存在，则会报错，这时可以使用if exists判断：

  1 drop database if exists db_testdb;

使用cascade，强制删除有数据的数据库：

  1 drop database if exists db_testdb cascade;

创建数据库表

建表语法：

  1 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

  2 [(col_name data_type [COMMENT col_comment], ...)]

  3 [COMMENT table_comment]

  4 [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

  5 [CLUSTERED BY (col_name, col_name, ...)

  6 [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

  7 [ROW FORMAT row_format]

  8 [STORED AS file_format]

  9 [LOCATION hdfs_path]

字段解释说明：

1.CREATE TABLE 创建一个指定名字的表，如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。

2.EXTERNAL关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

3.COMMENT：为表和列添加注释。

4.PARTITIONED BY创建分区表。

5.CLUSTERED BY创建分桶表。

6.SORTED BY外部表数据源，例如后续使用的Hbase数据。

7.ROW FORMAT

DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
| SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

用户在建表的时候可以自定义SerDe或者使用自带的SerDe。如果没有指定ROW FORMAT 或者ROW FORMAT DELIMITED，将会使用自带的SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的SerDe，Hive通过SerDe确定表的具体的列的数据。

SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。

8.STORED AS指定存储文件类型

常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列式存储格式文件）

如果文件数据是纯文本，可以使用STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCEFILE。

9.LOCATION ：指定表在HDFS上的存储位置。

10.LIKE允许用户复制现有的表结构，但是不复制数据。

内部表

默认创建的表都是内部表，这类表有Hive控制生命周期，默认会将表数据存储在配置文件中配置项指定的目录下：

  1 <property>

  2     <name>hive.metastore.warehouse.dir</name>

  3     <value>/root/hive/warehouse</value>

  4     <description>location of default database for the warehouse</description>

  5 </property>

当删除内部表时，该表的数据也会被删除。

说明：内部表不适合与其他工具共享数据。

1. 创建表

  1 > create table if not exists tableone (id int,name string) row format delimited fields terminated by '\t';

2. 根据已经存在的表结构创建表

  1 > create table if not exists tabletwo like tableone;

3. 查询表类型

  1 > desc tableone;

外部表

外部表，Hive并不完全拥有数据。

例如：数据存储在Hbase的表中，此时创建的外部表若删除，则数据仍然存储在Hbase中，不会被删除。

此处使用前文中的Hbase中的表testtableone（前文连接https://www.cnblogs.com/Dcl-Snow/p/11433031.html），进行操作。

1. 创建外部表

  1 create external table if not exists htesttableone (row2 string,info map<string,string>) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping" = ":key,info:") tblproperties("hbase.table.name" = "testtableone");

2. 查询表类型：

  1 > desc formatted htesttableone;

可以看到表类型为外部表：

表类型转换

1. 查询tabletwo表类型：

  1 > desc formatted tabletwo;

2. 内部表转换为外部表

  1 > alter table tabletwo set tblproperties('EXTERNAL'='TRUE');

3. 外部表转换为内部表

  1 > alter table tabletwo set tblproperties('EXTERNAL'='FALSE');

修改表名

  1 > alter table tabletwo rename to tablethree;

注意：与Hbase数据表关联的Hive外部表，不能进行表类型转换，也不能修改表名，若需要修改表名则需在Hbase中进行修改。

删除表

  1 > drop table htesttableone;

删除外部表，可以看到Hbase中，该数据表仍然存在，不会被删除。

Hive数据类型和DDL操作的更多相关文章

Java数据类型和MySql数据类型对应一览
类型名称显示长度数据库类型 JAVA类型 JDBC类型索引(int) 描述 VARCHAR L+N VARCHAR java.lang.String 12 CHAR N ...
数据类型和typeof操作符
虽然学习js有一段时间了,但是对js的基础语法却是有些生疏.最近在看jquery源码,决定随带总结一些基础的语法知识.今天总结一下数据类型和typeof,这在写js的时候,是不得不知道的知识. 数据类 ...
MySql数据类型和Java数据类型对应一览
类型名称显示长度数据库类型 JAVA类型 JDBC类型索引(int) 描述 VARCHAR L+N VARCHAR java.lang.String 12 CHAR N ...
Java数据类型和MySql数据类型对应一览 [转]
类型名称显示长度数据库类型 JAVA类型 JDBC类型索引(int) 描述 VARCHAR L+N VARCHAR java.lang.String 12 CHAR N ...
mysql数据类型和java数据类型匹配
Java数据类型和MySql数据类型对应一览类型名称显示长度数据库类型 JAVA类型 JDBC类型索引(int) 描述 VARCHAR L+N VARCHAR java. ...
Sql Server中的数据类型和Mysql中的数据类型的对应关系(转)
Sql Server中的数据类型和Mysql中的数据类型的对应关系(转):https://blog.csdn.net/lilong329329/article/details/78899477 一.S ...
SQL数据类型和C#数据类型间的转换
今天看到SQL数据类型和C#数据类型间的转换,前人留下的. <?xml version="1.0" encoding="utf-8" ?> < ...
Hive数据据类型 DDL DML
Hive的基本数据类型 DDL DML: 基本数据类型对于Hive而言String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以 ...
《Python》基础数据类型和for循环
一.基础数据类型总览 int:用于计算,计数,运算等.1.2.3.100... str:‘这些内容’,用于少量数据的存储,便于操作. bool:True,False,两种状态,机器反馈给用户的对,错 ...

随机推荐

堡垒机WebSSH进阶之实时监控和强制下线
这个功能我可以不用,但你不能没有前几篇文章实现了对物理机.虚拟机以及Kubernetes中Pod的WebSSH操作,可以方便的在web端对系统进行管理,同时也支持对所有操作进行全程录像,以方便后续的 ...
将Android手机打造成你的Python开发者桌面#华为云·寻找黑马程序员#
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华 ...
.Net Core的API网关Ocelot的使用(二)[负载,限流,熔断,Header转换]
网关的负载均衡当下游拥有多个节点的时候,我们可以用DownstreamHostAndPorts来配置 { "UpstreamPathTemplate": "/Api_A ...
luogu P1976 鸡蛋饼
题目背景 Czyzoiers 都想知道小 x 为什么对鸡蛋饼情有独钟.经过一番逼问,小 x 道出了实情:因为他喜欢圆. 题目描述最近小 x 又发现了一个关于圆的有趣的问题:在圆上有 2N 个不同的点 ...
js 实现多层级对象合并
js 实现多层级对象合并首先需求是使用js对数据的格式进行转换把一个二维数组(包含层级信息,层级数是不固定的)list 转换为多层级的对象我的思路就是循环先把list里单条信息转换为多层 ...
kubernetes学习笔记（一）——minikube安装记录
想学习一下kubernetes,于是先安装一个单机版来学习一下.但是就是这个最简单的单机版安装方式都倒腾了我好久,记录下自己的安装过程.博主是在windows利用vmware workstation安 ...
MVC 入门自动生成增删改查所有功能
MVC现在版本已经是5了 EF现在最新的应该是6.0.2了开发工具是 Visual Studio2013 数据库是 SQL Server 2012 这些需要.NET Framework4.5 的 ...
Codeforces Round #595 (Div. 3) D2Too Many Segments，线段树
题意:给n个线段,每个线段会覆盖一些点,求删最少的线段,使得每个点覆盖的线段不超过k条. 思路:按右端点排序,之后依次加入每个线段,查询线段覆盖区间内的每个点,覆盖的最大线段数量,如果不超过k,那就可 ...
ACM-ICPC 2018 焦作赛区网络预赛J题 Participate in E-sports
Jessie and Justin want to participate in e-sports. E-sports contain many games, but they don't know ...
从零开始openGL——三、模型加载及鼠标交互实现
前言在上篇文章中,介绍了基本图形的绘制.这篇博客中将介绍模型的加载.绘制以及鼠标交互的实现. 模型加载模型存储要实现模型的读取.绘制,我们首先需要知道模型是如何存储在文件中的. 通常模型是由网格 ...

Hive数据类型和DDL操作

Hive数据类型和DDL操作的更多相关文章

随机推荐

热门专题