《Hive编程指南》读书笔记 | 一文看懂Hive的数据类型和文件格式

　　Hive支持关系型数据库中的大多数基本数据类型，同时也支持关系型数据库中很少出现的3种集合数据类型。

　　和大多数数据库相比，Hive具有一个独特的功能，那就是其对于数据在文件中的编码方式具有非常大的灵活性。

　　大多数数据库对数据具有完全的控制，其包括对数据存储到磁盘的过程的控制，也包括对数据生命周期的控制。

　　而Hive将这些方面的控制权交给用户，使用户更容易地使用各种各样的工具来管理和处理数据。

一、 基本数据类型

表1-1 Hive基本数据类型

数据类型	长度	例子
TINYINT	1byte有符号整数	20
SMALINT	2 byte有符号整数	20
INT	4 byte有符号整数	20
BIGINT	8 byte有符号整数	20
BOOLEAN	布尔类型，true或false	TRUE
FLOAT	单精度浮点数	3.14159
DOUBLE	双精度浮点数	3.14159
STRING	字符序列。可指定字符集。可使用单引号或双引号	‘now is the time’,”for all good men”
TIMESTAMP(v0.8.0+)	整数、浮点数或字符串	1327882397(Unix新纪元秒)，1327882397。123456789（Unix新纪元秒并跟随有纳秒数）和‘2019-09-09 12:34:56.123456789’（JDBC所兼容的java.sql.Timestamp）
BINARY(v0.8.0+)	字节数组	见下文

二、 Hive的基本数据类型与Java中对应的类型一致

Hive的基本数据类型都是对Java中的接口的实现，因此这些类型的具体行为细节和Java中对应的类型是完全一致的。

三、 Hive不支持限制最大长度的“字符数组”类型

关系型数据库支持该类型是出于性能优化的考虑，因为定长的记录更容易进行建立索引，数据扫描等。

Hive所处的世界是“宽松”的，它不一定拥有数据文件，但必须能够支持使用不同的文件格式。Hive根据不同字段间的分隔符来对其进行判断。

同时，Hadoop和Hive强调优化磁盘的读和写的性能，而限制列的值的长度相对来说并不重要。

《Hive编程指南》读书笔记 | 一文看懂Hive的数据类型和文件格式的更多相关文章

<<Hive编程指南>>读书笔记
1. 设置hive以本地模式运行(即使当前用户是在分布式模式或伪分布式模式下执行也使用这种模式) set hive.exec.model.local.auto=true; 若想默认使用这个配置,可以将 ...
hive编程指南——读书笔记（无知拾遗）
set hive.metastore.warehouse.dir=/user/myname/hive/warehouse; 用户设定自己的数据仓库目录.不影响其他用户.也在$HOME/.hiverc中 ...
Hive编程指南读书笔记(1):
1.Mapreduce是一种计算模型,将计算任务分割成多个可以在服务器集群中并行执行的任务,然后分散到一群家用的或者服务器级别的硬件机器上,从而降低成本并提供水平可伸缩性. 2.mapreduce的两 ...
Android权威编程指南读书笔记(1-2章)
第一章 Android应用初体验 1.4用户界面设计 <?xml version="1.0" encoding="utf-8"?> ADT21开发版 ...
《Windows核心编程》读书笔记上
[C++]<Windows核心编程>读书笔记这篇笔记是我在读<Windows核心编程>第5版时做的记录和总结(部分章节是第4版的书),没有摘抄原句,包含了很多我个人的思考和对 ...
《[MySQL技术内幕：SQL编程》读书笔记
<[MySQL技术内幕:SQL编程>读书笔记 2019年3月31日23:12:11 严禁转载!!! <MySQL技术内幕:SQL编程>这本书是我比较喜欢的一位国内作者姜承尧, ...
《C#高级编程》读书笔记
<C#高级编程>读书笔记 C#类型的取值范围名称 CTS类型说明范围 sbyte System.SByte 8位有符号的整数 -128~127(−27−27~27−127−1) sh ...
hive编程指南--employees表数据定义
hive编程指南中有个employees表,默认的分隔符比較繁杂,编辑起来不太方便(普通编辑器编辑的控制字符^A等被当成字符串处理了,没有起到分隔符的作用). 收集的解决方式例如以下: http:// ...
一文看懂大数据的技术生态圈，Hadoop，hive，spark都有了
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...

随机推荐

Netty源码分析-- FastThreadLocal分析（十）
上节讲过了ThreadLocal的源码,这一节我们来看下FastThreadLocal.这个我觉得要比ThreadLocal要简单,因为缺少了对于Entry的清理和整理工作,所以ThreadLocal ...
JAVA开始（基础篇）
数据类型 Boolean 1位Byte 1个字节(8位)Short 2个字节Char 2个字节Int ...
HTML 第5章CSS3美化网页元素
<span>标签: <span>标签是用来组合HTML文档中的行内元素,它没有固定的格式表示. 字体样式: 属性名 ...
java学习笔记(中级篇)—java实现高质量图片压缩
使用java几十行代码实现一个高质量图片压缩程序,再也不用去自己找网络的压缩程序啦!而且很多网上的工具还有水印或者其他的限制,自己动手写一个简单的应用,是再合适不过了. 一.实现原理 1.声明两个字符 ...
【JDK】JDK源码分析-CyclicBarrier
概述 CyclicBarrier 是并发包中的一个工具类,它的典型应用场景为:几个线程执行完任务后,执行另一个线程(回调函数,可选),然后继续下一轮,如此往复. 打个通俗的比方,可以把 CyclicB ...
if IE语句 | 判断浏览器IE版本及添加升级提示
本文引自:http://blog.csdn.net/u013372487/article/details/48521929 实现方法判断当前浏览器是否IE6(或IE6内核) <!--[if I ...
azure k8s netcore 程序初次部署
以下都是我在2018年12月份做的实验,今天才发布出来. 念想首先是了解一些关于K8s的一些基础概念,推荐查看一下这个链接,非常适合入门k8s.是因为K8S的环境搭建比较复杂(最主要是懒),其实也有 ...
从MYSQL的ibtmp1文件太大说起
1. 啥情况呀测试环境机器磁盘空间不足的告警打破了下午的沉寂,一群人开始忙活着删数据.但是,不久前刚清理了一波数据,测试环境在没做压测的情况下不至于短短一个月不到就涨了200G数据,于是,我悄悄的 ...
学习Canvas这一篇文章就够了
一.canvas简介 <canvas> 是 HTML5 新增的,一个可以使用脚本(通常为JavaScript)在其中绘制图像的 HTML 元素.它可以用来制作照片集或者制作简单(也不是 ...
纯 Python 实现的 Google 批量翻译
测试通过时间:2019-8-20 参阅:C#实现谷歌翻译API.Python之Google翻译爬虫首先声明,没有什么不良动机,因为经常会用 translate.google.cn,就想着用 Pyth ...

《Hive编程指南》读书笔记 | 一文看懂Hive的数据类型和文件格式

《Hive编程指南》读书笔记 | 一文看懂Hive的数据类型和文件格式的更多相关文章

随机推荐

热门专题