hive 学习系列三（表格的创建create-table）

表格创建：

语法

第一种建表的形式：

说明：

temporary 临时表，在当前回话内，这张表有效，当回话结束，可以理解为程序结束，则程序终止。

external 外部表， hdfs 上的表的文件，并非存储在默认的路径上的时候，

    EXTERNAL 表格和正常表格删除区别，external 只删除metastore

    可以称为外部表，便于和其他数据库和程序交互，比如impala 等。

如果不加 IF NOT EXISTS 的时候，如果表存在，会报错，可以加上IF NOT EXISTS 加以避免。

注意表名不区分大小写

例子：

create temporary table my.table1;

create external table my.table2;

create tabel if not exists my.table3;

-- (Note: TEMPORARY available in Hive 0.14.0 and later)

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

   --定义列， 比如 id  Int comment '索引', name string comment '名字'

  [(col_name data_type [COMMENT col_comment], ... [constraint_specification])]

  [COMMENT table_comment]  -- comment 表示表的注释

  --分区，括号内的定义类似列的定义，分区可以根据默写字段比如日期，城市，进行分区，可以加快某些条件下的查询

  --部分列的集合，根据分区列的进行粗粒度的划分，一个分区，代表着一个目录

  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

  --分桶，在分区的基础上，可以进行分桶，分桶的原理是，根据某几列进行计算hash 值，

  --然后hash 值对分成的桶的个数取余操作，决定放在哪个桶里面

  --在数据量足够大的情况下，分桶比分区，更高的查询效率

  --分桶，还可以使抽样更加高效

  [CLUSTERED BY (col_name, col_name, ...)

            [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]  ---- 分桶

  ---大致上Skewed，对数据倾斜处理有很大帮助，没用过

  [SKEWED BY (col_name, col_name, ...)                  -- (Note: Available in Hive 0.10.0 and later)]

     ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)

     [STORED AS DIRECTORIES]

  [

   [ROW FORMAT row_format]

   [STORED AS file_format]

     | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  -- (Note: Available in Hive 0.6.0 and later)

  ]   -- 表示文件的存储格式， 其中store by 指的是自定义文件格式，用得不多，笔者没有用过。

  [LOCATION hdfs_path]

  [TBLPROPERTIES (property_name=property_value, ...)]    --  表示表格的附加属性和表述。

                                                         -- (Note: Available in Hive 0.6.0 and later)

  [AS select_statement];

   -- 建立表格的时候同时从其他表格select 数据进行填充表格。

   -- (Note: as  select_statement Available in Hive 0.5.0 and later; not supported for external tables)

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

  LIKE existing_table_or_view_name

  [LOCATION hdfs_path];

 说明：

 数据类型

data_type

  : primitive_type

  | array_type

  | map_type

  | struct_type

  | union_type  -- (Note: Available in Hive 0.7.0 and later)

基本数据类型

primitive_type

  : TINYINT

  | SMALLINT

  | INT

  | BIGINT

  | BOOLEAN

  | FLOAT

  | DOUBLE

  | DOUBLE PRECISION -- (Note: Available in Hive 2.2.0 and later)

  | STRING

  | BINARY      -- (Note: Available in Hive 0.8.0 and later)

  | TIMESTAMP   -- (Note: Available in Hive 0.8.0 and later)

  | DECIMAL     -- (Note: Available in Hive 0.11.0 and later)

  | DECIMAL(precision, scale)  -- (Note: Available in Hive 0.13.0 and later)

  | DATE        -- (Note: Available in Hive 0.12.0 and later)

  | VARCHAR     -- (Note: Available in Hive 0.12.0 and later)

  | CHAR        -- (Note: Available in Hive 0.13.0 and later)

 复杂数据类型

array_type

  : ARRAY < data_type >

map_type

  : MAP < primitive_type, data_type >

struct_type

  : STRUCT < col_name : data_type [COMMENT col_comment], ...>

union_type

   : UNIONTYPE < data_type, data_type, ... >  -- (Note: Available in Hive 0.7.0 and later)

## 在hdfs 上的文件存储格式

row_format

  : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]

        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

        [NULL DEFINED AS char]   -- (Note: Available in Hive 0.13 and later)

  | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

file_format:

  : SEQUENCEFILE

  | TEXTFILE    -- (Default, depending on hive.default.fileformat configuration)

  | RCFILE      -- (Note: Available in Hive 0.6.0 and later)

  | ORC         -- (Note: Available in Hive 0.11.0 and later)

  | PARQUET     -- (Note: Available in Hive 0.13.0 and later)

  | AVRO        -- (Note: Available in Hive 0.14.0 and later)

  | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

constraint_specification:

  : [, PRIMARY KEY (col_name, ...) DISABLE NOVALIDATE ]

    [, CONSTRAINT constraint_name FOREIGN KEY (col_name, ...) REFERENCES table_name(col_name, ...) DISABLE NOVALIDATE

说明

上述的建表语法，有些语法笔者不是很懂，希望各位不吝赐教。

常见例子：

例子一

create  table my.tabelDemo(

    id      int,

	name    string,

    hobby   array<string>,

   add     map<String,string>,

)

row format delimited

fields terminated by ','

collection items terminated by '-'

map keys terminated by ':'

store as textfile;

每一列之间，使用逗号分隔，

array 内部的string 使用-分隔。

map 的key 和value， 使用冒号分隔 ：

例子二

-- 文件存储形式是parquet

CREATE EXTERNAL TABLE IF NOT EXISTS default.person_table(

	ftpurl        string,

	ipcid         string,

	feature       array<float>,

	eyeglasses    int,

	gender        int,

	haircolor     int,

	hairstyle     int,

	hat           int,

	huzi          int,

	tie           int,

	timeslot      int,

	exacttime     Timestamp,

	searchtype    string,

	sharpness     int

)

partitioned by (date string)

STORED AS PARQUET

LOCATION '/user/hive/warehouse/person_table';

struct 使用

create table student_test(id INT, info struct<name:STRING, age:INT>)

    ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

    COLLECTION ITEMS TERMINATED BY ':';         

hdfs 中的文件数据格式大致是：即（struct 里面对应的分隔符是 collection items terminated by 指定的分隔符）

1,zhou:30

2,yan:30

3,chen:20

4,li:80

以下是truncate 用来进行表格的清空

一个有用的数据清空工具

TRUNCATE TABLE table_name [PARTITION partition_spec];

partition_spec:

  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

删除表格

DROP TABLE [IF EXISTS] table_name [PURGE];

-- purge，如果配置了垃圾回收，而drop table 时 加上了purge，则其会被彻底删除，在垃圾箱中也找不回来。

修改表

重命名表

ALTER TABLE table_name RENAME TO new_table_name;

改变表格属性

ALTER TABLE table_name SET TBLPROPERTIES table_properties;

table_properties:

  : (property_name = property_value, property_name = property_value, ... )

改变表格评论

ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comment);

对表格进行分桶

ALTER TABLE table_name CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name, ...)]

  INTO num_buckets BUCKETS;

添加分区

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location']

    [, PARTITION partition_spec [LOCATION 'location'], ...];

partition_spec:

  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

重命名分区

ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;

删除分区

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec[, PARTITION partition_spec, ...]

  [IGNORE PROTECTION] [PURGE];

  -- (Note: PURGE available in Hive 1.2.0 and later, IGNORE PROTECTION not available 2.0.0 and later)

视图创建

CREATE VIEW [IF NOT EXISTS] [db_name.]view_name [(column_name [COMMENT column_comment], ...) ]

  [COMMENT view_comment]

  [TBLPROPERTIES (property_name = property_value, ...)]

  AS SELECT ...;

原文参考：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

hive 学习系列三（表格的创建create-table）的更多相关文章

DocX开源WORD操作组件的学习系列三
DocX学习系列 DocX开源WORD操作组件的学习系列一 : http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_sharp_001_docx1.htm ...
scrapy爬虫学习系列三：scrapy部署到scrapyhub上
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
RabbitMQ学习系列三-C#代码接收处理消息
RabbitMQ学习系列三:.net 环境下 C#代码订阅 RabbitMQ 消息并处理 http://www.80iter.com/blog/1438251320680361 http://www. ...
.net reactor 学习系列(三)---.net reactor代码自动操作相关保护功能
原文:.net reactor 学习系列(三)---.net reactor代码自动操作相关保护功能接上篇,上篇已经学习了界面的各种功能以及各种配置,这篇准备学习下代码控制许可证. ...
MyBatis学习系列三——结合Spring
目录 MyBatis学习系列一之环境搭建 MyBatis学习系列二——增删改查 MyBatis学习系列三——结合Spring MyBatis在项目中应用一般都要结合Spring,这一章主要把MyBat ...
hive 学习系列二（数据库的创建删除修改）拿走，不谢。
database 相当于一个目录或者命名空间,用来更好地进行表的管理在hdfs 的目录位置大致如下: [root@iZbp12vtv76y9q3d633bh6Z /]# hadoop fs -ls ...
hive学习笔记_hive的表创建
创建hive表注意事项一.表分隔符必须与读取的数据文件一致,比如例子的分隔符为 '\t'(制表符),hive下默认分隔符是制表符. 二.最好指定分区作为数据之间的区分. 三.创建完表可以desc+表 ...
hive 学习系列五（hive 和elasticsearch 的交互，很详细哦，我又来吹liubi了）
hive 操作elasticsearch 一,从hive 表格向elasticsearch 导入数据 1,首先,创建elasticsearch 索引,索引如下 curl -XPUT '10.81.17 ...
RabbitMQ学习系列三：.net 环境下 C#代码订阅 RabbitMQ 消息并处理
上一篇已经讲了Rabbitmq如何在Windows平台安装不懂请移步: RabbitMQ学习系列二:.net 环境下 C#代码使用 RabbitMQ 消息队列一.理论 .net环境下,C#代码订阅 ...

随机推荐

CSS基础语法(三) CSS的6种特性
样式表常用写法及特性(组合.继承.关联性.权值性.层叠性.重要性) 1.样式的组合:把具有相同声明定义的选择符组合在一起,并用逗号隔开.-例如:段落元素p.单元格元素td和类c1可以使用相同样式: p ...
日期的压缩存储daybits
问题: 存储一个日期的序列,例如保存用户一年的登录时间序列,20140201,20130102这样两个日期,如果用INT那么需要八个字节,用STRING就更多了. 解决: 通过bit来存储一天,具体的 ...
Android进阶笔记09：Android 万能适配器
1. Android 万能适配器项目中Listview GridView几乎是必用的组件,Android也提供一套机制,为这些控件绑定数据,那就是Adapter.用起来虽然还不错,但每次都 ...
论C/C++数据在内存中的二进制存放形式
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/u010518429/article/details/30332237 // enter any ty ...
NEUACM1132: Renew MST Quickly 增量最小生成树
题目链接:http://acm.neu.edu.cn/hustoj/problem.php?id=1132 和UVa11354很类似题意: 原先有一棵树,每次加一条边,看最小生成树大小: 这个和增量 ...
AFN 切换BaseUrl
在某个特定的接口需要修改baseurl时: 直接使用kvc: [_sessionManager setValue:[NSURL URLWithString:NEW_BASE_URL] forKey:@ ...
scope的四种作用域的使用
如何使用spring的作用域: <bean id="role" class="spring.chapter2.maryGame.Role" scope=& ...
js中json对象取键和值
1.json中输出各个键值: var ohp = {"星期一":18,"星期二":16,"星期三":19,"星期四":1 ...
idea原生ajax数据处理(增删改查)
项目名称:Bookstore UI界面项目文件操作: jsp代码 <%@ page import="dao.BookDAO" %> <%@ page impo ...
【luogu P2341 [HAOI2006]受欢迎的牛】题解
题解报告:https://www.luogu.org/problemnew/show/P2341 我们把图中的强连通分量缩点,然后只有出度为0的牛是受欢迎的,这样如果出度为0的牛只有一个,说明受所有牛 ...

hive 学习系列三（表格的创建create-table）

表格创建：

语法

说明

常见例子：

例子一

例子二

struct 使用

以下是truncate 用来进行表格的清空

删除表格

修改表

重命名表

改变表格属性

改变表格评论

对表格进行分桶

添加分区

重命名分区

删除分区

视图创建

hive 学习系列三（表格的创建create-table）的更多相关文章

随机推荐

热门专题