hive 学习系列三（表格的创建create-table）

表格创建：

语法

第一种建表的形式：

说明：

temporary 临时表，在当前回话内，这张表有效，当回话结束，可以理解为程序结束，则程序终止。

external 外部表， hdfs 上的表的文件，并非存储在默认的路径上的时候，

    EXTERNAL 表格和正常表格删除区别，external 只删除metastore

    可以称为外部表，便于和其他数据库和程序交互，比如impala 等。

如果不加 IF NOT EXISTS 的时候，如果表存在，会报错，可以加上IF NOT EXISTS 加以避免。

注意表名不区分大小写

例子：

create temporary table my.table1;

create external table my.table2;

create tabel if not exists my.table3;

-- (Note: TEMPORARY available in Hive 0.14.0 and later)

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

   --定义列， 比如 id  Int comment '索引', name string comment '名字'

  [(col_name data_type [COMMENT col_comment], ... [constraint_specification])]

  [COMMENT table_comment]  -- comment 表示表的注释

  --分区，括号内的定义类似列的定义，分区可以根据默写字段比如日期，城市，进行分区，可以加快某些条件下的查询

  --部分列的集合，根据分区列的进行粗粒度的划分，一个分区，代表着一个目录

  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

  --分桶，在分区的基础上，可以进行分桶，分桶的原理是，根据某几列进行计算hash 值，

  --然后hash 值对分成的桶的个数取余操作，决定放在哪个桶里面

  --在数据量足够大的情况下，分桶比分区，更高的查询效率

  --分桶，还可以使抽样更加高效

  [CLUSTERED BY (col_name, col_name, ...)

            [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]  ---- 分桶

  ---大致上Skewed，对数据倾斜处理有很大帮助，没用过

  [SKEWED BY (col_name, col_name, ...)                  -- (Note: Available in Hive 0.10.0 and later)]

     ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)

     [STORED AS DIRECTORIES]

  [

   [ROW FORMAT row_format]

   [STORED AS file_format]

     | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  -- (Note: Available in Hive 0.6.0 and later)

  ]   -- 表示文件的存储格式， 其中store by 指的是自定义文件格式，用得不多，笔者没有用过。

  [LOCATION hdfs_path]

  [TBLPROPERTIES (property_name=property_value, ...)]    --  表示表格的附加属性和表述。

                                                         -- (Note: Available in Hive 0.6.0 and later)

  [AS select_statement];

   -- 建立表格的时候同时从其他表格select 数据进行填充表格。

   -- (Note: as  select_statement Available in Hive 0.5.0 and later; not supported for external tables)

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

  LIKE existing_table_or_view_name

  [LOCATION hdfs_path];

 说明：

 数据类型

data_type

  : primitive_type

  | array_type

  | map_type

  | struct_type

  | union_type  -- (Note: Available in Hive 0.7.0 and later)

基本数据类型

primitive_type

  : TINYINT

  | SMALLINT

  | INT

  | BIGINT

  | BOOLEAN

  | FLOAT

  | DOUBLE

  | DOUBLE PRECISION -- (Note: Available in Hive 2.2.0 and later)

  | STRING

  | BINARY      -- (Note: Available in Hive 0.8.0 and later)

  | TIMESTAMP   -- (Note: Available in Hive 0.8.0 and later)

  | DECIMAL     -- (Note: Available in Hive 0.11.0 and later)

  | DECIMAL(precision, scale)  -- (Note: Available in Hive 0.13.0 and later)

  | DATE        -- (Note: Available in Hive 0.12.0 and later)

  | VARCHAR     -- (Note: Available in Hive 0.12.0 and later)

  | CHAR        -- (Note: Available in Hive 0.13.0 and later)

 复杂数据类型

array_type

  : ARRAY < data_type >

map_type

  : MAP < primitive_type, data_type >

struct_type

  : STRUCT < col_name : data_type [COMMENT col_comment], ...>

union_type

   : UNIONTYPE < data_type, data_type, ... >  -- (Note: Available in Hive 0.7.0 and later)

## 在hdfs 上的文件存储格式

row_format

  : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char]

        [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]

        [NULL DEFINED AS char]   -- (Note: Available in Hive 0.13 and later)

  | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]

file_format:

  : SEQUENCEFILE

  | TEXTFILE    -- (Default, depending on hive.default.fileformat configuration)

  | RCFILE      -- (Note: Available in Hive 0.6.0 and later)

  | ORC         -- (Note: Available in Hive 0.11.0 and later)

  | PARQUET     -- (Note: Available in Hive 0.13.0 and later)

  | AVRO        -- (Note: Available in Hive 0.14.0 and later)

  | INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname

constraint_specification:

  : [, PRIMARY KEY (col_name, ...) DISABLE NOVALIDATE ]

    [, CONSTRAINT constraint_name FOREIGN KEY (col_name, ...) REFERENCES table_name(col_name, ...) DISABLE NOVALIDATE

说明

上述的建表语法，有些语法笔者不是很懂，希望各位不吝赐教。

常见例子：

例子一

create  table my.tabelDemo(

    id      int,

	name    string,

    hobby   array<string>,

   add     map<String,string>,

)

row format delimited

fields terminated by ','

collection items terminated by '-'

map keys terminated by ':'

store as textfile;

每一列之间，使用逗号分隔，

array 内部的string 使用-分隔。

map 的key 和value， 使用冒号分隔 ：

例子二

-- 文件存储形式是parquet

CREATE EXTERNAL TABLE IF NOT EXISTS default.person_table(

	ftpurl        string,

	ipcid         string,

	feature       array<float>,

	eyeglasses    int,

	gender        int,

	haircolor     int,

	hairstyle     int,

	hat           int,

	huzi          int,

	tie           int,

	timeslot      int,

	exacttime     Timestamp,

	searchtype    string,

	sharpness     int

)

partitioned by (date string)

STORED AS PARQUET

LOCATION '/user/hive/warehouse/person_table';

struct 使用

create table student_test(id INT, info struct<name:STRING, age:INT>)

    ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

    COLLECTION ITEMS TERMINATED BY ':';         

hdfs 中的文件数据格式大致是：即（struct 里面对应的分隔符是 collection items terminated by 指定的分隔符）

1,zhou:30

2,yan:30

3,chen:20

4,li:80

以下是truncate 用来进行表格的清空

一个有用的数据清空工具

TRUNCATE TABLE table_name [PARTITION partition_spec];

partition_spec:

  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

删除表格

DROP TABLE [IF EXISTS] table_name [PURGE];

-- purge，如果配置了垃圾回收，而drop table 时 加上了purge，则其会被彻底删除，在垃圾箱中也找不回来。

修改表

重命名表

ALTER TABLE table_name RENAME TO new_table_name;

改变表格属性

ALTER TABLE table_name SET TBLPROPERTIES table_properties;

table_properties:

  : (property_name = property_value, property_name = property_value, ... )

改变表格评论

ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comment);

对表格进行分桶

ALTER TABLE table_name CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name, ...)]

  INTO num_buckets BUCKETS;

添加分区

ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location']

    [, PARTITION partition_spec [LOCATION 'location'], ...];

partition_spec:

  : (partition_column = partition_col_value, partition_column = partition_col_value, ...)

重命名分区

ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;

删除分区

ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec[, PARTITION partition_spec, ...]

  [IGNORE PROTECTION] [PURGE];

  -- (Note: PURGE available in Hive 1.2.0 and later, IGNORE PROTECTION not available 2.0.0 and later)

视图创建

CREATE VIEW [IF NOT EXISTS] [db_name.]view_name [(column_name [COMMENT column_comment], ...) ]

  [COMMENT view_comment]

  [TBLPROPERTIES (property_name = property_value, ...)]

  AS SELECT ...;

原文参考：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

hive 学习系列三（表格的创建create-table）的更多相关文章

DocX开源WORD操作组件的学习系列三
DocX学习系列 DocX开源WORD操作组件的学习系列一 : http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_sharp_001_docx1.htm ...
scrapy爬虫学习系列三：scrapy部署到scrapyhub上
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...
RabbitMQ学习系列三-C#代码接收处理消息
RabbitMQ学习系列三:.net 环境下 C#代码订阅 RabbitMQ 消息并处理 http://www.80iter.com/blog/1438251320680361 http://www. ...
.net reactor 学习系列(三)---.net reactor代码自动操作相关保护功能
原文:.net reactor 学习系列(三)---.net reactor代码自动操作相关保护功能接上篇,上篇已经学习了界面的各种功能以及各种配置,这篇准备学习下代码控制许可证. ...
MyBatis学习系列三——结合Spring
目录 MyBatis学习系列一之环境搭建 MyBatis学习系列二——增删改查 MyBatis学习系列三——结合Spring MyBatis在项目中应用一般都要结合Spring,这一章主要把MyBat ...
hive 学习系列二（数据库的创建删除修改）拿走，不谢。
database 相当于一个目录或者命名空间,用来更好地进行表的管理在hdfs 的目录位置大致如下: [root@iZbp12vtv76y9q3d633bh6Z /]# hadoop fs -ls ...
hive学习笔记_hive的表创建
创建hive表注意事项一.表分隔符必须与读取的数据文件一致,比如例子的分隔符为 '\t'(制表符),hive下默认分隔符是制表符. 二.最好指定分区作为数据之间的区分. 三.创建完表可以desc+表 ...
hive 学习系列五（hive 和elasticsearch 的交互，很详细哦，我又来吹liubi了）
hive 操作elasticsearch 一,从hive 表格向elasticsearch 导入数据 1,首先,创建elasticsearch 索引,索引如下 curl -XPUT '10.81.17 ...
RabbitMQ学习系列三：.net 环境下 C#代码订阅 RabbitMQ 消息并处理
上一篇已经讲了Rabbitmq如何在Windows平台安装不懂请移步: RabbitMQ学习系列二:.net 环境下 C#代码使用 RabbitMQ 消息队列一.理论 .net环境下,C#代码订阅 ...

随机推荐

python 正则，os，sys，hashlib模块
简单的小算法 random随机获取数据 import random def getrandata(num): a=[] i= while i<num: a.append(random.randi ...
mongodb 3.4 学习 (三）复制集
复制集(replica set) 复制集是一组mongodb的进程维护同样的数据集,提供冗余与高可用性.最小的复制集由3台服务器(或者3个实例)组成,最多1个primary和2个secondary实例 ...
March 5 2017 Week 10 Sunday
If you do what you love, you will never work a day in your life. 做你所爱的事情,你就不会觉得是在工作. Today, one mach ...
vue.js--基础事件结合双向数据绑定实现todolist，增加和删除功能
原理很简单,写一个input框,定义一个空的list,当在input中增加数据时,就往list中添加数据,然后在循环这个list的数据,删除数据就是调用list中的splice <templat ...
Codeforces Round #431 (Div. 2)
A. Odds and Ends Where do odds begin, and where do they end? Where does hope emerge, and will they e ...
POJ 2942 圆桌骑士
之前做过这个题目,现在回想起来,又有新的柑橘. 求必须出去的骑士人数. 每一个双连通分量,如果是一个奇圈,那么一定是二分图染色失败. 依次遍历每个双连通分量,但是,对于邻接表中,有一些点不是双连通分量 ...
动态规划(DP),0-1背包问题
题目链接:http://poj.org/problem?id=3624 1.p[i][j]表示,背包容量为j,从i,i+1,i+2,...,n的最优解. 2.递推公式 p[i][j]=max(p[i+ ...
html默认样式重置
几个著名的重置css goal https://meyerweb.com/eric/tools/css/reset/ 雅虎 https://yuilibrary.com/yui/docs/cssr ...
2018.11.28 OGNL表达式与struts2框架结合的体现---在配置文件中体现（补充）
Demo3Action配置 struts.xml 主配置文件配置地址栏输入 http://localhost:8080/StrutsDay03/Demo3Action 对于主配置的文件参数而言,如果 ...
2018.9.10 Java语言中的int及char数据类型的长度分别为（32，16 ）
Byte类型 (8) Character类型(16) Integer类型 (32) Double类型 (64) Long类型 (64)

hive 学习系列三（表格的创建create-table）

表格创建：

语法

说明

常见例子：

例子一

例子二

struct 使用

以下是truncate 用来进行表格的清空

删除表格

修改表

重命名表

改变表格属性

改变表格评论

对表格进行分桶

添加分区

重命名分区

删除分区

视图创建

hive 学习系列三（表格的创建create-table）的更多相关文章

随机推荐

热门专题