使用Hive读取ElasticSearch中的数据

本文将介绍如何通过Hive来读取ElasticSearch中的数据，然后我们可以像操作其他正常Hive表一样，使用Hive来直接操作ElasticSearch中的数据，将极大的方便开发人员。本文使用的各组件版本分别为 Hive0.12、Hadoop-2.2.0、ElasticSearch 2.3.4。

　　我们先来看看ElasticSearch中相关表的mapping：

{

"user": {

"properties": {

"regtime": {

"index": "not_analyzed",

"type": "string"

},

"uid": {

"type": "integer"

},

"mobile": {

"index": "not_analyzed",

"type": "string"

},

"username": {

"index": "not_analyzed",

"type": "string"

}

ElasticSearch中的index名为iteblog，type为user；user有regtime、uid、mobile以及username四个属性。现在我们在Hive端进行操作。

　　要让Hive能够操作ElasticSearch中的数据我们需要对Hive进行一些设置。值得高兴的是，ElasticSearch官方为我们提供了一些类库可以实现这些要求。我们需要引入相应的elasticsearch-hadoop-xxx.jar包，因为我们得ElasticSearch版本是2.x的，所以我们最少需要使用ES-Hadoop 2.2.x，本文使用的是elasticsearch-hadoop-2.3.4.jar，这个可以到Maven中央仓库下载。要让Hive能够加载elasticsearch-hadoop-2.3.4.jar文件有好几种方式：

1、直接通过add命令加载，如下：

hive > ADD JAR /home/iteblog/elasticsearch-hadoop-2.3.4.jar;

Added [/home/iteblog/elasticsearch-hadoop-2.3.4.jar] to class path

Added resources: [/home/iteblog/elasticsearch-hadoop-2.3.4.jar]

2、我们还可以在启动Hive的时候进行设置，如下：

$ bin/hive --auxpath=/home/iteblog/elasticsearch-hadoop-2.3.4.jar

3、我们还可以通过设置hive.aux.jars.path属性来实现：

$ bin/hive -hiveconf hive.aux.jars.path=/home/iteblog/elasticsearch-hadoop-2.3.4.jar

或者我们把这个设置直接写到hive-site.xml中，以便后面方便：

<property>

<name>hive.aux.jars.path</name>

<value>/home/iteblog/elasticsearch-hadoop-2.3.4.jar</value>

<description>A comma separated list (with no spaces) of the jar files</description>

</property>

大家可以根据自己实际情况选择设置。设置好ElasticSearch相关类库之后，我们就可以到Hive中创建表了。为了方便，我们直接将Hive中各个字段以及类型设置成和ElasticSearch中一样：

hive (iteblog)> create EXTERNAL table `user`(

> regtime string,

> uid int,

> mobile string,

> username string

> )

> STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'

> TBLPROPERTIES('es.resource' = 'iteblog/user', 'es.nodes'='www.iteblog.com', 'es.port'='9200', 'es.nodes.wan.only'='true');

到这里，我们已经已经可以在Hive里面查询ElasticSearch中的数据了：

hive (iteblog)> select * from `user` limit 10;

OK

2016-10-24 13:08:16 1 13112121212 Tom

2016-10-24 14:08:16 2 13112121212 Join

2016-10-25 14:23:16 3 13112121212 iteblog

2016-10-25 13:08:16 4 NULL weixin

2016-10-25 19:08:16 5 13112121212 bbs

2016-10-25 13:14:04 6 NULL zhangshan

2016-10-25 13:08:16 7 13112121212 wangwu

2016-10-25 14:56:16 8 13112121212 Joan

2016-10-25 15:25:16 9 13112121212 White

2016-10-25 17:24:16 0 NULL lihhh

Time taken: 0.072 seconds, Fetched: 10 row(s)

如上所述，我们已经成功通过Hive查询到ElasticSearch中的数据了。如果你在通过Hive查询ElasticSearch中的数据遇到如下异常：

Failed with exception java.io.IOException:org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: Cannot detect ES version - typically this happens

if the network/Elasticsearch cluster is not accessible or when targeting a WAN/Cloud instance without the proper setting 'es.nodes.wan.only'

这个很可能是因为你配置错了 es.nodes 或者 es.port 属性了。

　　在上面的例子中，我们为了方便将Hive中的字段设置成和ElasticSearch中一样；但实际情况下，我们可能无法将Hive中的字段和ElasticSearch保持一致，这时候我们需要在创建Hive表的时候做一些设置，否则将会出现错误。我们可以通过 es.mapping.names 参数实现，如下：

hive (iteblog)> create EXTERNAL table `user`(

> register_time string,

> user_id int,

> mobile string,

> username string

> )

> STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'

> TBLPROPERTIES('es.resource' = 'iteblog/user', 'es.nodes'='www.iteblog.com', 'es.port'='9200', 'es.nodes.wan.only'='true','es.mapping.names'='register_time:regtime,user_id:uid');

然后我们就可以将Hive中的 register_time 映射到ElasticSearch中的 regtime 字段； user_id 映射到ElasticSearch中的 uid 字段。

　　在创建Hive表的时候，我们还可以通过制定 es.query 来限制需要查询的数据，如下：

hive (iteblog)> create EXTERNAL table `user`(

> regtime string,

> uid int,

> mobile string,

> username string

> )

> STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'

> TBLPROPERTIES('es.resource' = 'iteblog/user', 'es.nodes'='www.iteblog.com', 'es.port'='9200', 'es.nodes.wan.only'='true','es.query' = '?q=uid:2');

上面的查询仅返回uid为2的数据（关于查询条件设置可以参见《23种非常有用的ElasticSearch查询例子(1)》），然后我们可以看效果：

hive (iteblog)> select * from `user` limit 10;

OK

2016-10-24 14:08:16 2 13112121212 Join

Time taken: 0.023 seconds, Fetched: 1 row(s)

我们可以看到，uid为2的数据才返回了，其他的数据被过滤了。

　　在一些需要启动MapReduce任务来完成的SQL，Hive启动的Map个数和ElasticSearch中的分片个数一致，也就是每个分片使用一个Map任务来处

本文转载自过往记忆（https://www.iteblog.com/）

使用Hive读取ElasticSearch中的数据的更多相关文章

使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
Spark读取Hbase中的数据
大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1).调用parallelize函数直接从集合中获取数据,并存入RDD中:Java版本如下: JavaRDD<Inte ...
Python中如何读取xls中的数据
要想读取EXCEL中的数据,首先得下载xlrd包,地址:https://pypi.python.org/pypi/xlrd 安装方法:下载解压后,利用windows dos命令进入解压目录eg,c ...
编写SqlHelper使用，在将ExecuteReader方法封装进而读取数据库中的数据时会产生Additional information: 阅读器关闭时尝试调用 Read 无效问题，解决方法与解释
在自学杨中科老师的视频教学时,拓展编写SqlHelper使用,在将ExecuteReader方法封装进而读取数据库中的数据时会产生Additional information: 阅读器关闭时尝试调用 ...
读取redis中的数据时出现：MISCONF Redis is configured to save RDB snapshots
读取redis中的数据时出现:MISCONF Redis is configured to save RDB snapshots 以下为异常详细信息: Exception in thread &q ...
sql 读取excel中的数据
select 列名 as 字段名 from openBowSet('MSDASQL.1','driver=Microsoft Excel Driver(*.xls);dbq=文件存放地址','sele ...
java读取请求中body数据
java读取请求中body数据 /** * 获取request中body数据 * * @author lifq * * 2017年2月24日下午2:29:06 * @throws IOExcepti ...
SpringBoot(十三)_springboot上传Excel并读取excel中的数据
今天工作中,发现同事在整理数据,通过excel上传到数据库.所以现在写了篇利用springboot读取excel中的数据的demo.至于数据的进一步处理,大家肯定有不同的应用场景,自行修改 pom文件 ...

随机推荐

MVC编程模式
MVC编程模式 MVC 是一种使用 MVC(Model View Controller 模型-视图-控制器)设计创建 Web 应用程序的模式: Model(模型)表示应用程序核心(比如数据库记录列表) ...
es中对mapping的理解
(1)往es里面直接插入数据,es会自动建立索引,同时建立type以及对应的mapping (2)mapping中就自动定义了每个field的数据类型 (3)不同的数据类型(比如说text和date) ...
Oracle 11g服务详细介绍及哪些服务是必须开启的
成功安装Oracle 11g后,共有7个服务,这七个服务的含义分别为: 1. Oracle ORCL VSS Writer Service: Oracle卷映射拷贝写入服务,VSS(Volume Sh ...
什么是Docker？（一）
Docker 最初是 dotCloud 公司创始人 Solomon Hykes 在法国期间发起的一个公司内部项目,它是基于 dotCloud 公司多年云服务技术的一次革新,并于 2013 年 3 月以 ...
IIS下实现帝国CMS搜索页伪静态
前面ytkah讲了apache下帝国CMS搜索页伪静态实现方法,网友说服务器是用IIS,那么IIS下如何实现帝国CMS搜索页伪静态呢?首先得先有URL重写插件,下载地址:http://www.iis. ...
Openvpn配置文件详解
一.vars配置文件 vars配置文件的主要内容如下: cat vars |grep -vE "^#|^$" KEY_DIR定义key生成的目录. KEY_SIZE定义生成私钥的大 ...
网络基础之2——TCP/IP参考模型
本内容主要来源于<看透Spring MVC源码分析与实践——韩路彪>一书 BS结构网络传输的分解方式有两种: 1.OSI参考模型. 2.TCP/IP参考模型. OSI和TCP/IP分层模型 ...
IOP知识点（5）
1 检验规则取“或” 2 IOP升级中心 2 IOP升级中心 http://10.110.17.12:8080/cloud-ops/#/environment/ admin 我修改了io ...
ie8以下兼容圆角等css3的属性
<!--[if lt IE 10]> <script type="text/javascript" src="PIE.js"></ ...
命令行方式调用winrar对文件夹进行zip压缩示例代码
调用winRAR进行压缩 using System; using System.Collections.Generic; using System.Linq; using System.Text; u ...

使用Hive读取ElasticSearch中的数据

使用Hive读取ElasticSearch中的数据的更多相关文章

随机推荐

热门专题