【翻译】Flink Table Api & SQL

本文翻译自官网：Hive Beta https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/hive/

Apache Hive已将自己确立为数据仓库生态系统的焦点。它不仅充当用于大数据分析和ETL的SQL引擎，而且也是数据发现, 定义和演变数据的数据管理平台。

Flink提供了与Hive的双重集成。首先是利用Hive的Metastore作为持久性 catalog，以跨会话存储Flink特定的元数据。第二个是提供Flink作为读取和写入Hive表的替代引擎。

hive catalog 旨在与现有的 hive 安装程序 “开箱即用” 兼容。您不需要修改现有的 Hive Metastore 或更改表的数据放置或分区。

Flink支持Hive 2.3.4，1.2.1并且依赖于Hive对其他次要版本的兼容性保证。

如果您使用其他次要Hive版本，例如1.2.2或2.3.1，则还可以选择最接近的版本1.2.1（对于1.2.2）或2.3.4（对于2.3.1）来解决。例如，您要使用Flink在SQL客户端中集成2.3.1 hive版本，只需在YAML配置中将hive-version设置为2.3.4。通过Table API创建HiveCatalog实例时，类似地传递版本字符串。

欢迎用户使用此替代方法尝试不同的版本。由于仅测试了2.3.4和1.2.1，所以可能存在意外问题。我们将在将来的版本中测试并支持更多版本。

依赖

为了与Hive集成，用户在他们的项目中需要以下依赖项。

hive 2.3.4

<dependency>

  <groupId>org.apache.flink</groupId>

  <artifactId>flink-connector-hive_2.11</artifactId>

  <version>1.9.0</version>

  <scope>provided</scope>

</dependency>

<!-- Hadoop Dependencies -->

<dependency>

  <groupId>org.apache.flink</groupId>

  <artifactId>flink-hadoop-compatibility_2.11</artifactId>

  <version>1.9.0</version>

  <scope>provided</scope>

</dependency>

<!-- Hive 2.3.4 is built with Hadoop 2.7.2. We pick 2.7.5 which flink-shaded-hadoop is pre-built with, but users can pick their own hadoop version, as long as it's compatible with Hadoop 2.7.2 -->

<dependency>

  <groupId>org.apache.flink</groupId>

  <artifactId>flink-shaded-hadoop-2-uber</artifactId>

  <version>2.7.5-8.0</version>

  <scope>provided</scope>

</dependency>

<!-- Hive Metastore -->

<dependency>

    <groupId>org.apache.hive</groupId>

    <artifactId>hive-exec</artifactId>

    <version>2.3.4</version>

</dependency>

hive 1.2.1

<dependency>

  <groupId>org.apache.flink</groupId>

  <artifactId>flink-connector-hive_2.11</artifactId>

  <version>1.9.0</version>

  <scope>provided</scope>

</dependency>

<!-- Hadoop Dependencies -->

<dependency>

  <groupId>org.apache.flink</groupId>

  <artifactId>flink-hadoop-compatibility_2.11</artifactId>

  <version>1.9.0</version>

  <scope>provided</scope>

</dependency>

<!-- Hive 1.2.1 is built with Hadoop 2.6.0. We pick 2.6.5 which flink-shaded-hadoop is pre-built with, but users can pick their own hadoop version, as long as it's compatible with Hadoop 2.6.0 -->

<dependency>

  <groupId>org.apache.flink</groupId>

  <artifactId>flink-shaded-hadoop-2-uber</artifactId>

  <version>2.6.5-8.0</version>

  <scope>provided</scope>

</dependency>

<!-- Hive Metastore -->

<dependency>

    <groupId>org.apache.hive</groupId>

    <artifactId>hive-metastore</artifactId>

    <version>1.2.1</version>

</dependency>

<dependency>

    <groupId>org.apache.hive</groupId>

    <artifactId>hive-exec</artifactId>

    <version>1.2.1</version>

</dependency>

<dependency>

    <groupId>org.apache.thrift</groupId>

    <artifactId>libfb303</artifactId>

    <version>0.9.3</version>

</dependency>

连接到Hive

通过表环境或YAML配置，使用Hive catalog 连接到现有的Hive安装程序。

val name            = "myhive"

val defaultDatabase = "mydatabase"

val hiveConfDir     = "/opt/hive-conf"

val version         = "2.3.4" // or 1.2.1

val hive = new HiveCatalog(name, defaultDatabase, hiveConfDir, version)

tableEnv.registerCatalog("myhive", hive)

支持的类型

当前HiveCatalog支持具有以下映射的大多数Flink数据类型：

Flink Data Type	Hive Data Type
CHAR(p)	CHAR(p)
VARCHAR(p)	VARCHAR(p)
STRING	STRING
BOOLEAN	BOOLEAN
TINYINT	TINYINT
SMALLINT	SMALLINT
INT	INT
BIGINT	LONG
FLOAT	FLOAT
DOUBLE	DOUBLE
DECIMAL(p, s)	DECIMAL(p, s)
DATE	DATE
BYTES	BINARY
ARRAY<T>	LIST<T>
MAP<K, V>	MAP<K, V>
ROW	STRUCT

局限性

Hive数据类型中的以下限制会影响Flink和Hive之间的映射：

CHAR(p) 最大长度为255
VARCHAR(p) 最大长度为65535
Hive MAP仅支持原始键类型，而Flink MAP可以是任何数据类型
不支持Hive的 UNION 类型
Flink的INTERVAL类型不能映射到Hive INTERVAL类型
Hive不支持 Flink TIMESTAMP_WITH_TIME_ZONE和TIMESTAMP_WITH_LOCAL_TIME_ZONE
由于精度差异，Flink的TIMESTAMP_WITHOUT_TIME_ZONE类型无法映射到Hive的TIMESTAMP类型。
Hive不支持Flink 的 MULTISET

欢迎关注Flink菜鸟公众号，会不定期更新Flink（开发技术）相关的推文

【翻译】Flink Table Api & SQL — Hive Beta的更多相关文章

【翻译】Flink Table Api & SQL — Catalog Beta 版
本文翻译自官网:Catalogs Beta https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/catalog ...
【翻译】Flink Table Api & SQL — Hive —— 在 scala shell 中使用 Hive 连接器
本文翻译自官网:Use Hive connector in scala shell https://ci.apache.org/projects/flink/flink-docs-release-1 ...
【翻译】Flink Table Api & SQL — Hive —— Hive 函数
本文翻译自官网:Hive Functions https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/hive/h ...
【翻译】Flink Table Api & SQL — Hive —— 读写 Hive 表
本文翻译自官网:Reading & Writing Hive Tables https://ci.apache.org/projects/flink/flink-docs-release-1 ...
Flink Table Api & SQL 翻译目录
Flink 官网 Table Api & SQL 相关文档的翻译终于完成,这里整理一个安装官网目录顺序一样的目录 [翻译]Flink Table Api & SQL —— Overv ...
【翻译】Flink Table Api & SQL — SQL客户端Beta 版
本文翻译自官网:SQL Client Beta https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/sqlCl ...
【翻译】Flink Table Api & SQL —Streaming 概念 —— 表中的模式匹配 Beta版
本文翻译自官网:Detecting Patterns in Tables Beta https://ci.apache.org/projects/flink/flink-docs-release-1 ...
【翻译】Flink Table Api & SQL — 流概念
本文翻译自官网:Streaming Concepts https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/st ...
【翻译】Flink Table Api & SQL — 性能调优 — 流式聚合
本文翻译自官网:Streaming Aggregation https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table ...

随机推荐

Cloudera Certified Associate Administrator案例之Manage篇
Cloudera Certified Associate Administrator案例之Manage篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.下载Namenode镜像 ...
admin端的教师管理功能测试
1 概述 1.1 测试范围本次所测试的内容是admin端的教师管理功能. 1.2 测试方法采用黑盒子方法进行集成测试. 1.3 测试环境 (1) 服务器l 操作系统:Windo ...
2018-2019 ACM-ICPC, Asia Xuzhou Regional Contest- H. Rikka with A Long Colour Palette -思维+贪心
2018-2019 ACM-ICPC, Asia Xuzhou Regional Contest- H. Rikka with A Long Colour Palette -思维+贪心 [Proble ...
jmeter+nmon+crontab简单的执行接口定时压测
一.概述临时接到任务要对系统的接口进行压测,上面的要求就是:压测,并发2000 在不熟悉系统的情况下,按目前的需求,需要做的步骤: 需要有接口脚本需要能监控系统性能需要能定时执行脚本二.观察 ...
Kotlin反射重要组件与流程详解
继续学习Kotlin反射,我们知道对于Java的反射类是Class,而在Kotlin中的反射类是KClass,而在Java当中对于反射中的方法是用Method,而在Kotlin中是用KFunction ...
@CrossOrigin：解决跨域问题
注解@CrossOrigin解决跨域问题阅读目录: 一.跨域(CORS)支持: 二.使用方法: 1.controller配置CORS 2.全局CORS配置 3.XML命名空间 4.How does ...
luoguP2768：珍珠项链(矩阵乘法优化DP)
题意:有K种珍珠,每种N颗,求长度为1~N的项链,包含K种珍珠的项链种类数.N<=1e9, K<=30; 思路:矩阵快速幂,加个1累加前缀和即可. #include<bits/std ...
ElementUI——报错汇总
前言 elementUI的报错汇总错误 please transfer a valid prop path to form item! vue.esm.js?c5de:628 [Vue warn]: ...
about云Hadoop相关技术总结
让你真正明白spark streaminghttp://www.aboutyun.com/forum.php?mod=viewthread&tid=21141(出处: about云开发)
python字符的表示格式
%% 百分号标记 #就是输出一个% %c 字符及其ASCII码%s 字符串%d 有符号整数(十进制)%u 无符号整数(十进制)%o 无符号整数(八进制)%x 无符号整数(十六进制)%X 无符号整数(十 ...

【翻译】Flink Table Api & SQL — Hive Beta

依赖

连接到Hive

支持的类型

局限性

【翻译】Flink Table Api & SQL — Hive Beta的更多相关文章

随机推荐

热门专题