数据类型

Hive基本的数据类型:

Hive集合数据类型:

另外还有一个复合数据类型,可以综合上面的数据类型组合到一起。

·          union: UNIONTYPE<data_type, data_type, ...>

类型说明

时间戳

支持传统的unix时间戳,可选的纳秒级精度。

支持的转换:

l        整型数值类型:解读为以秒为单位的UNIX时间戳

l        浮动点数值类型:解读为以秒和小数精度为单位的UNIX时间戳。

l        字符串:JDBC兼容的java.sql.Timestamp格式“YYYY-MM-DD HH:MM:SS.fffffffff”(9位小数位精度)

时间戳被解释是与timezone无关,存储为从UNIX纪元的偏移量。提供便利的UDF和时区转换(to_utc_timestamp,from_utc_timestamp)。

所有现有datetime的UDF(月,日,年,小时,等)可以工作于TIMESTAMP数据类型。

限定符

Hive默认的限定符:

下面两个建表语句是一样的。

隐式的限定符语句:

CREATE TABLEemployees (

name  STRING,

salary  FLOAT,

subordinatesARRAY<STRING>,

deductions  MAP<STRING, FLOAT>,

address  STRUCT<street:STRING, city:STRING,state:STRING, zip:INT>);

显式的限定符语句:

CREATE TABLEemployees (

name  STRING,

salary  FLOAT,

subordinatesARRAY<STRING>,

deductions  MAP<STRING, FLOAT>,

address  STRUCT<street:STRING, city:STRING,state:STRING, zip:INT>

)

ROW FORMATDELIMITED

FIELDSTERMINATED BY '\001'

COLLECTION ITEMSTERMINATED BY '\002'

MAP KEYSTERMINATED BY '\003'

LINES TERMINATEDBY '\n'

STORED ASTEXTFILE;

要导入的文件格式

John  Doe^A100000.0^AMary  Smith^BTodd Jones^AFederal  Taxes^C.2^BStateTaxes^C.05^BInsurance^C.1^A1 Michigan Ave.^BChicago^BIL^B60600

Mary  Smith^A80000.0^ABill  King^AFederal Taxes^C.2^BState Taxes^C.05^BInsurance^C.1^A100 Ontario St.^BChicago^BIL^B60601

Todd Jones^A70000.0^AFederalTaxes^C.15^BState Taxes^C.03^BInsurance^C.1^A200 Chicago Ave.^BOak Park^BIL^B60700

Bill  King^A60000.0^AFederal  Taxes^C.15^BState  Taxes^C.03^BInsurance^C.1^A300 Obscure Dr.^BObscuria^BIL^B60100

下面是导入首行记录的格式样本结构:

{

"name":  "John Doe",

"salary": 100000.0,

"subordinates": ["MarySmith", "Todd Jones"],

"deductions": {

"Federal Taxes": .2,

"State Taxes":  .05,

"Insurance":  .1

},

"address":{

"street": "1 Michigan Ave.",

"city":  "Chicago",

"state":  "IL",

"zip":  60600

}

}

当然我们可以自己可以自定列值的限定符,如下:

CREATE TABLEemployees (

name STRING,

salary FLOAT,

subordinates ARRAY<STRING>,

deductions MAP<STRING, FLOAT>,

address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>

)

ROW FORMATDELIMITED

FIELDSTERMINATED BY ','

COLLECTION ITEMSTERMINATED BY '|'

MAP KEYSTERMINATED BY ':';

注意:

1.      由于field, collection, and key-value的分隔默认就是TEXTFILE格式,所以上面可以省略掉STORED AS TEXTFILE子句。

2.      由于目前hive支持的行分隔符只有/n(换行符),所以LINES TERMINATED BY '\n'子句也可以去掉。

3.      关于怎么制作Hive默认分隔符的数据文件见:http://www.myexception.cn/software-architecture-design/1351552.html

按表的定义文件的格式:

John Doe,100000.0,MarySmith|Todd Jones,Federal Taxes:.2|State Taxes:.05|Insurance:.1,1 MichiganAve.|Chicago|IL|60600

MarySmith,80000.0,Bill King,Federal Taxes:.2|State Taxes:.05|Insurance:.1,100Ontario St.|Chicago|IL|60601

ToddJones,70000.0,,Federal Taxes:.15|State Taxes:.03|Insurance:.1,200 ChicagoAve.|Oak Park|IL|60700

BillKing,60000.0,,Federal Taxes:.15|State Taxes:.03|Insurance:.1,300 ObscureDr.|Obscuria|IL|60100

导入数据:

load data localinpath '/app/hadoop/data/employees2' overwrite into table employees;

查看数据:

hive(default)> select * from employees2;

OK

John Doe        100000.0        ["Mary Smith","ToddJones"]     {"FederalTaxes":0.2,"State Taxes":0.05,"Insurance":0.1}        {"street":"1 Michigan Ave.","city":"Chicago","state":"IL","zip":60600}

Mary Smith      80000.0 ["Bill King"]   {"Federal Taxes":0.2,"StateTaxes":0.05,"Insurance":0.1}        {"street":"100 Ontario St.","city":"Chicago","state":"IL","zip":60601}

Todd Jones      70000.0 []      {"FederalTaxes":0.15,"State Taxes":0.03,"Insurance":0.1}       {"street":"200 Chicago Ave.","city":"Oak Park","state":"IL","zip":60700}

Bill King       60000.0 []      {"FederalTaxes":0.15,"State Taxes":0.03,"Insurance":0.1}       {"street":"300 Obscure Dr.","city":"Obscuria","state":"IL","zip":60100}

Time taken:0.085 seconds, Fetched: 4 row(s)

参考:

1.Hive编程指南

2.https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types

hive学习笔记之-数据类型的更多相关文章

  1. hive学习笔记之一:基本数据类型

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  2. hive学习笔记之三:内部表和外部表

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  3. hive学习笔记之四:分区表

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  4. hive学习笔记之五:分桶

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  5. hive学习笔记之六:HiveQL基础

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  6. hive学习笔记之七:内置函数

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  7. hive学习笔记之九:基础UDF

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  8. hive学习笔记之十:用户自定义聚合函数(UDAF)

    欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览 本文是<hive学习笔记>的第十 ...

  9. hive学习笔记之十一:UDTF

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

随机推荐

  1. 偏差和方差以及偏差方差权衡(Bias Variance Trade off)

    当我们在机器学习领域进行模型训练时,出现的误差是如何分类的? 我们首先来看一下,什么叫偏差(Bias),什么叫方差(Variance): 这是一张常见的靶心图 可以看左下角的这一张图,如果我们的目标是 ...

  2. 分布式任务队列--Celery的学习笔记

    一.Celery简介 Celery是一个简单,灵活,可靠的分布式系统,用于处理大量消息,同时为操作提供维护此类系统所需的工具.它是一个任务队列,专注于实时处理,同时还支持任务调度. 所谓任务队列,是一 ...

  3. js学习重点难点知识总结 (巩固闭包、原型、原型链)

    学习重点知识总结   1.闭包知识点巩固        闭包函数:                    1.可以实现函数外部访问函数内部的变量                     2.在Java ...

  4. unity之游戏特效

    一.运动轨迹 运动轨迹常常用于表现武器的挥舞效果,在提高速度感的同时又能让玩家看清楚招式动作,所以是常见的一种格斗特效. Unity中可以直接使用TrailRender来实现该效果. 二.运动模糊 运 ...

  5. Python之流程控制——if...else...

    Python之流程控制--if...else... 一.流程控制 假如把程序比做走路,那我们到现在为止,一直走的都是直路,还没遇到过分岔口.当遇到分岔口时,你得判断哪条岔路是你要走的路,如果我们想让程 ...

  6. Linux之Shell编程(16)

    读取从控制台输入的值(read): 系统函数: basename:返回完整路径最后/部分,常用于获取文件名 basename [pathname] [suffix] dirname:返回完整路径最后/ ...

  7. Unity进阶:PlayMaker

    版权申明: 本文原创首发于以下网站: 博客园『优梦创客』的空间:https://www.cnblogs.com/raymondking123 优梦创客的官方博客:https://91make.top ...

  8. java生成动态验证码

    import java.awt.Color;import java.awt.Font;import java.awt.Graphics;import java.awt.Graphics2D;impor ...

  9. Codeforces Round #480 (Div. 2) A. Links and Pearls

    题目地址:http://codeforces.com/contest/980/problem/A 官方题解: 我的理解:o表示珍珠,-表示链子,给一串字符串你可以任意重组这条项链(不能删去),判断这条 ...

  10. hdu 5945 Fxx and game(dp+单调队列! bc#89)

    Young theoretical computer scientist Fxx designed a game for his students. In each game, you will ge ...