如何使用Hive集成Solr?

（一）Hive+Solr简介

Hive作为Hadoop生态系统里面离线的数据仓库，可以非常方便的使用SQL的方式来离线分析海量的历史数据，并根据分析的结果，来干一些其他的事情，如报表统计查询等。
Solr作为高性能的搜索服务器，能够提供快速，强大的全文检索功能。

（二）为什么需要hive集成solr？

有时候，我们需要将hive的分析完的结果，存储到solr里面进行全文检索服务，比如以前我们有个业务，对我们电商网站的搜索日志使用hive分析完后存储到solr里面做报表查询，因为里面涉及到搜索关键词，这个字段是需要能分词查询和不分词查询的，通过分词查询可以查看改词的相关的产品在某一段时间内的一个走势图。有时候，我们又需要将solr里面的数据加载到hive里面，使用sql完成一些join分析功能，两者之间优劣互补，以更好的适应我们的业务需求。当然网上已经有一些hive集成solr的开源项目，但由于版本比较旧，所以无法在新的版本里面运行，经过散仙改造修补后的可以运行在最新的版本。

（三）如何才能使hive集成solr？

所谓的集成，其实就是重写hadoop的MR编程接口的一些组件而已。我们都知道MR的编程接口非常灵活，而且高度抽象，MR不仅仅可以从HDFS上加载数据源，也可以从任何非HDFS的系统中加载数据，当然前提是我们需要自定义：
InputFormat
OutputFormat
RecordReader
RecordWriter
InputSplit
组件，虽然稍微麻烦了点，但从任何地方加载数据这件事确实可以做到，包括mysql，sqlserver，oracle，mongodb， solr，es，redis等等。

上面说的是定制Hadoop的MR编程接口，在Hive里面除了上面的一些组件外，还需要额外定义SerDe组件和组装StorageHandler，在hive里面 SerDe指的是 Serializer and Deserializer，也就是我们所说的序列化和反序列化，hive需要使用serde和fileinput来读写hive 表里面的一行行数据。
读的流程：
HDFS files / every source -> InputFileFormat --> --> Deserializer --> Row object
写的流程：
Row object --> Serializer --> --> OutputFileFormat --> HDFS files / every source

（四）hive集成solr后能干什么？

（1）读取solr数据，以hive的支持的SQL语法，能进行各种聚合，统计，分析，join等
（2）生成solr索引，一句SQL，就能通过MR的方式给大规模数据构建索引

（五）如何安装部署以及使用？
源码在这里，不在粘贴了，已经上传github了，有需要的朋友可以使用 git clonehttps://github.com/qindongliang/hive-solr 后，修改少许pom文件后，执行
mvn clean package
命令构建生成jar包，并将此jar包拷贝至hive的lib目录即可

例子如下：
（1）hive读取solr数据

建表：

--存在表就删除
drop table if exists solr;
--创建一个外部表
create external table solr (
--定义字段，这里面的字段需要与solr的字段一致
rowkey string,
sname string
)
--定义存储的storehandler
stored by "com.easy.hive.store.SolrStorageHandler"
--配置solr属性
tblproperties('solr.url' = 'http://192.168.1.28:8983/solr/a',
'solr.query' = '*:*',
'solr.cursor.batch.size'='10000',
'solr.primary_key'='rowkey'
);
执行bin/hive 命令，进行hive的命令行终端：
--查询所有数据
select * from solr limit 5;
--查询指定字段
select rowkey from solr;
--以mr的方式聚合统计solr数据
select sname ,count(*) as c from solr group by sname order by c desc

（2）使用hive给solr构建索引的例子

首先构建数据源表:

--如果存在就删除
drop table if exists index_source;
--构建一个数据表
CREATE TABLE index_source(id string, yname string,sname string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
--向数据源里面导入本地数据
load data local inpath '/ROOT/server/hive/test_solr' into table index_source;
其次，构建solr的关联表：
--删除已经存在的表
drop table if exists index_solr;
--创建关联solr表
create external table index_solr (
id string,
yname string,
sname string
)
--定义存储引擎
stored by "com.easy.hive.store.SolrStorageHandler"
--设置solr服务属性
tblproperties('solr.url' = 'http://192.168.1.28:8983/solr/b',
'solr.query' = '*:*',
'solr.cursor.batch.size'='10000',
'solr.primary_key'='id'
);

最后，执行下面的sql命令，即可给数据源中的数据，构建solr索引：

--注册hive-solr的jar包，否则MR方式运行的时候，将不能正常启动
add jar /ROOT/server/hive/lib/hive-solr.jar;
--执行插入命令
INSERT OVERWRITE TABLE index_solr SELECT * FROM index_source ;
--执行成功之后，即可在solr的终端界面查看，也可以再hive里面执行下面的solr查询
select * from index_solr limit 10 ;

（六）他们还能其他的框架集成么？

当然，作为开源独立的框架，我们可以进行各种组合， hive也可以和elasticsearch进行集成，也可以跟mongodb集成， solr也可以跟spark集成，也可以跟pig集成,但都需要我们自定义相关的组件才行,思路大致与这个项目的思路一致。

（七）本次测试通过的基础环境

Apache Hadoop2.7.1
Apache Hive1.2.1
Apache Solr5.1.0

（八）感谢并参考的资料：

https://github.com/mongodb/mongo-hadoop/tree/master/hive/src/main/java/com/mongodb/hadoop/hive
https://github.com/lucidworks/hive-solr
https://github.com/chimpler/hive-solr
https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-HowtoWriteYourOwnSerDe

如何使用Hive集成Solr?的更多相关文章

Hive集成HBase;安装pig
Hive集成HBase 配置将hive的lib/中的HBase.jar包用实际安装的Hbase的jar包替换掉 cd /opt/hive/lib/ ls hbase-0.94.2* rm -rf ...
Hive集成HBase详解
摘要 Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询插入操作以及进行Join和Union等复杂查询应用场景 1. 将ETL操作的数据存入HBase 2. HB ...
hbase与hive集成：hive读取hbase中数据
1.创建hbase jar包到hive lib目录软连接 hive需要jar包: hive-hbase-handler-0.13.1-cdh5.3.6.jar zookeeper-3.4.5-cdh5 ...
Hive集成Mysql作为元数据时，提示错误：Specified key was too long; max key length is 767 bytes
在进行Hive集成Mysql作为元数据过程中.做全然部安装配置工作后.进入到hive模式,运行show databases.运行正常,接着运行show tables:时却报错. 关键错误信息例如以下: ...
大数据技术之_11_HBase学习_02_HBase API 操作 + HBase 与 Hive 集成 + HBase 优化
第6章 HBase API 操作6.1 环境准备6.2 HBase API6.2.1 判断表是否存在6.2.2 抽取获取 Configuration.Connection.Admin 对象的方法以及关 ...
Hbase与hive集成与对比
HBase与Hive的对比 1．Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询. (2) 用于数据分析.清洗 ...
nutch集成solr和中文分词
nutch集成solr和中文分词一.构建nutch环境 1. 设置代理由于nutch使用ant构建,ant调用ivy,会从maven仓库中下载依赖包,因此若公司需要代理才能上网,需要设置代理,如果 ...
hive集成sentry
1.安装配置sentry 详细步骤见上一篇安装配置sentry 2.配置hive 2.1 Hive-server2集成Sentry 在 /etc/hive/conf/hive-site.xml中添加: ...
挖坑:hive集成kerberos
集成hive+kerberos前,hadoop已经支持kerberos,所以基础安装略去: https://www.cnblogs.com/garfieldcgf/p/10077331.html 直接 ...

随机推荐

ajaxFileUpload.js插件支持多文件上传的方法
前提条件:ajaxFileUpload.js插件多文件上传步骤:1.修改源码,(源码只支持单个文件的上传):复制代码代码如下: //修改前代码------- //var oldElement = j ...
类型转换、类型安全以及is和as的使用
class Program { static void Main(string[] args) { //1.类型转换 { //隐式转换:不需要转型,因为new返回一个Employee对象,而Objec ...
52-Ubuntu-打包压缩-2-打包/解包
tar是Linux中最常用的备份工具,此命令可以把一系列文件打包到一个大文件中,也可以把一个打包的大文件恢复成一系列文件. 序号命令作用 01 tar -cvf 打包文件.tar 被打包文件打包 ...
第九篇数据表设计和保存item到json文件
上节说到Pipeline会拦截item,根据设置的优先级,item会依次经过这些Pipeline,所以可以通过Pipeline来保存文件到json.数据库等等. 下面是自定义json #存储item到 ...
使用Postman模拟HTTP请求
使用Postman模拟HTTP请求 Postman是一款强大的前端调试工具,不管是开发人员还是测试人员都会需要调试接口程序,如RestAPI,此时可以通过向服务器发送不同的HTTP请求来判断接口返回结 ...
IDA静态编译之sub
int __thiscall sub_10009800(const wchar_t *this, int a2, int a3, HKEY hKey){ } 说明:__thiscall dll内子函 ...
论文阅读笔记：《Generating Question-Answer Hierarchies》
题目: <Generating Question-Answer Hierarchies> 作者: Kalpesh Krishna & Mohit Iyyer What: 1.SQU ...
mysql 的linux 忘记了密码
1．首先确认服务器出于安全的状态,也就是没有人能够任意地连接MySQL数据库. 因为在重新设置MySQL的root密码的期间,MySQL数据库完全出于没有密码保护的状态下,其他的用户也可以任意地登录 ...
VS项目种类GUID
在VS里新建的类库项目,在添加新建项时往往找不到模板.比如想新建一个WPF的资源词典文件,VS认为该类库项目不是WPF类型,就没有列出新建资源词典的模板.解决办法是在csproj文件的<Prop ...
idea-----idea中“cannot resolve symbol servlet”的解决
原文章链接: 传送器>>>>>>>>>>>>>>>>. 第一次使用IntelliJ IDEA时我遇到了& ...

如何使用Hive集成Solr?

如何使用Hive集成Solr?的更多相关文章

随机推荐

热门专题