使用solr6.3 + Hbase Indexer ,通过Hbase-indexer从Hbase建立索引到solr中,进行全文搜索。

两种实现方式:① 开启hbase-indexer进行实时同步新数据 ② 使用MapReduce给存量数据创建索引。

在用MR跑索引的过程中,碰到问题:Mapper数总共35个,但failed了4个,成功也显示35个,整个JOB显示成功success。但是最终索引总数,比hbase表中数据要少,索引数与表数据量不一致。查看MR的counter,有插入错误的情况,如下所示:

DirectSolrInputDocumentWriter: Document add errors    ,

DirectSolrInputDocumentWriter: Index adds    ,,

解决过程:

1、总数据1900多万,不清楚是不是由于数据量较大的缘故导致(不知道哪里的问题),由于solr了解的不深,也只会运维的一些操作,想过尝试把原表分成4-5张表,再分别跑MR到一个solr的collection中去(总体操作流程是一样的),但把这作为最终是在解决不了问题之后的下策。

2、查看MR运行中错误的4个mapper,备注里报以下错误,而且failed集中在同一台服务器上:(MR执行成功的mapper里也有“exit 403”之类的error,这些提示好像也不受影响,太深入的也不了解 。整个JOB显示successed,有时候就会忽略这些failed。)

Error: Bad return type Exception Details:
Location: org/apache/solr/client/solrj/impl/HttpClientUtil.createClient
(Lorg/apache/solr/common/params/SolrParams;Lorg/apache/http/conn/ClientConnectionManager;)
Lorg/apache/http/impl/client/CloseableHttpClient;
@: areturn Reason: Type 'org/apache/http/impl/client/DefaultHttpClient' (current frame, stack[])
is not assignable to 'org/apache/http/impl/client/CloseableHttpClient' (from method signature)
Current Frame: bci: @ flags: { }
locals: { 'org/apache/solr/common/params/SolrParams', 'org/apache/http/conn/ClientConnectionManager',
'org/apache/solr/common/params/ModifiableSolrParams', 'org/apache/http/impl/client/DefaultHttpClient' }
stack: { 'org/apache/http/impl/client/DefaultHttpClient' }
Bytecode: : bb00 2ab7 000a 4db2 000b b900 0c01 :
001e b200 0bbb 000d 59b7 000e 120f :
b600 102c b600 11b6 b900 002b :
b800 194e 2d2c b800 152d b0
Stackmap Table: append_frame(@,Object[#])

去网上搜索了这个错误,一般的解决是修改httpclient对象创建时候的代码,参考:http://www.ithao123.cn/content-10445716.html。但不清楚这些代码是在哪里进行查看或者修改之类的,问题解决不了。

后来,在Google里查有一个国外的回答里,httpclient的版本问题。想起之前部署solr时也提到过httpclient的版本问题。

最终解决:

solr6.3.0跟hadoop2.7存在不兼容性,主要是httpclient、httpcore不兼容,hadoop使用的是httpcilent-4.2.5和httpcore-4.2.5,而solr6.3.0使用的是httpclient-4.4.1和httpcore-4.4.1,两个版本之间接口有些变化导致不兼容。解决办法是把hadoop中的jar包替换成高版本4.3或4.4.1。需要替换以下地方的版本:

/hdfs/data1/hadoop/yarn/local/filecache//mapreduce.tar.gz/hadoop/share/hadoop/common/lib/ httpclient-4.2..jar
/usr/hdp/2.4.0.0-/hadoop-yarn/lib/httpclient-4.2..jar
/usr/hdp/2.4.0.0-/hadoop/lib/httpclient-4.2..jar
/usr/hdp/2.4.0.0-/hadoop-mapreduce/httpclient-4.2..jar
/usr/hdp/2.4.0.0-/hadoop/client/httpclient-4.2..jar /hdfs/data1/hadoop/yarn/local/filecache//mapreduce.tar.gz/hadoop/share/hadoop/common/lib/ httpcore-4.2..jar
/usr/hdp/2.4.0.0-/hadoop-yarn/lib/httpcore-4.2..jar
/usr/hdp/2.4.0.0-/hadoop/lib/httpcore-4.2..jar
/usr/hdp/2.4.0.0-/hadoop-mapreduce/httpcore-4.2..jar
/usr/hdp/2.4.0.0-/hadoop/client/httpcore-4.2..jar

上边这些目录在部署的时候都执行过替换,然后全站搜索了“httpclient-4.2.5.jar”,在“/hdfs/data1/hadoop/yarn/local/filecache/12/mapreduce.tar.gz/hadoop/share/hadoop/common/lib/”目录下发现了4.2.5的版本,替换成4.3的版本,重新再跑MR,用时3.5h左右(正常时间),OK了,索引条数与hbase表条数一致。

PS:这是不小心选择错collection,执行“<delete><query>*:*</query></delete><commit/>” 清空所有索引数据之后,付出的代价。总耗时:很多。

solr6.3 + Hbase Indexer使用MR创建索引,错误Bad return type的更多相关文章

  1. Lily HBase Indexer同步HBase二级索引到Solr丢失数据的问题分析

    一.问题描述二.分析步骤2.1 查看日志2.2 修改Solr的硬提交2.3 寻求StackOverFlow帮助2.4 修改了read-row="never"后,丢失部分字段2.5 ...

  2. lucene全文搜索之三:生成索引字段,创建索引文档(给索引字段加权)基于lucene5.5.3

    前言:上一章中我们已经实现了索引器的创建,但是我们没有索引文档,本章将会讲解如何生成字段.创建索引文档,给字段加权以及保存文档到索引器目录 luncene5.5.3集合jar包下载地址:http:// ...

  3. MySQL 如何创建索引?怎么优化?

    索引类似大学图书馆建书目索引,可以提高数据检索的效率,降低数据库的IO成本.MySQL在300万条记录左右性能开始逐渐下降,虽然官方文档说500~800w记录,所以大数据量建立索引是非常有必要的.My ...

  4. hbases索引技术:Lily HBase Indexer介绍

    Lily HBase Indexer 为hbase提供快速查询,他允许不写代码,快速容易的把hbase行索引到solr.Lily HBase Indexer drives HBase indexing ...

  5. HBase中创建索引

    hbasene(https://github.com/akkumar/hbasene)是开源项目,在hbase存储上封装使用Lucene来创建索引,代码API非常简单,熟悉lucene的朋友可以很方便 ...

  6. hbase基于solr配置二级索引

    一.概述 Hbase适用于大表的存储,通过单一的RowKey查询虽然能快速查询,但是对于复杂查询,尤其分页.查询总数等,实现方案浪费计算资源,所以可以针对hbase数据创建二级索引(Hbase Sec ...

  7. Lily hbase indexer搭建配置概要文档

    1.solrcloud搭建好2.hbase-solr-indexer服务开启3.确定hbase中的对应的表开启replication功能 create '} // 1表示开启replication 已 ...

  8. lucene简介 创建索引和搜索初步

    lucene简介 创建索引和搜索初步 一.什么是Lucene? Lucene最初是由Doug Cutting开发的,2000年3月,发布第一个版本,是一个全文检索引擎的架构,提供了完整的查询引擎和索引 ...

  9. Key-Value Store Indexer(Lily HBase Indexer) 小型采坑

    环境: Cloudera Express 5.12.1 JDK 1.8.0_92 CentOS 7 步骤1:数据导入到Hbase中(非正题,跳过) hbase中表为allDoc,两个Family:fu ...

随机推荐

  1. 腾讯AlloyTeam发布AlloyLever - 开发调试发布错误监控上报用户问题定位尽在1kb代码

    AlloyLever [官网][Giuhub] 1kb(gzip)代码搞定开发调试发布,错误监控上报,用户问题定位. 支持错误监控和上报 支持 vConsole错误展示 支持开发阶段使用 vConso ...

  2. 咦,好像可以自己做个webapi框架了-IRouteHandler的使用

    当我们学习到一定程度的时候,我们会想要去深入了解代码底层的东西,也更想拥有一个属于自己的框架,当然,博主也正是如此.本文可能成为编写一个webapi框架的开端.有研究MVC框架的朋友会发现,mvc框架 ...

  3. Windows7 安装完成mysql dos启动服务出现服务名称无效

    错误提示:  WIN 7 cmd命令行下,net start mysql,出现 服务名无效提示: 错误分析: Mysql服务未安装 解决方案:在mysql 安装目录下bin文件夹  安装Shift+鼠 ...

  4. Dojo初探之4:dojo的event(鼠标/键盘)事件绑定操作(基于dojo1.11.2版本)

    前言: 上一章详解了dojo的dom/query操作,本章基于dom/query基础上进行事件绑定操作 dojo的事件 dojo的事件绑定操作分为鼠标和键盘两种进行详解 1.鼠标事件 我们沿用上一章中 ...

  5. echarts仪表盘如何设置图例(legend)

    echarts 图表中经常需要对不同的颜色设置图例标识不同的意义,而仪表盘的指针只存在一个值,如何表示不同颜色的意义,官网配置项并未给出该功能: 不同段的颜色是通过axisLine->lineS ...

  6. Unity3D 骨骼动画原理学习笔记

    最近研究了一下游戏中模型的骨骼动画的原理,做一个学习笔记,便于大家共同学习探讨. ps:最近改bug改的要死要活,博客写的吭哧吭哧的~ 首先列出学习参考的前人的文章,本文较多的参考了其中的表述: 1. ...

  7. WPF MVVM 架构 Step By Step(4)(添加bindings - 完全去掉后台代码)

    之前的改进已经挺棒的,但是我们现在知道了后台代码的问题,那是否可能把后台代码全部去除呢?这时候就该WPF binding 和 commands 来做的事情了. WPF就是以超吊的binding,com ...

  8. C++之const限定符

    作者:tongqingliu 转载请注明出处: C++之const限定符 const初始化 const的特点: 用const加以限定的变量,无法改变. 由于const对象定义之后就无法改变,所以必须对 ...

  9. GIS与水文分析(1)GIS与水文学

    GIS与水文分析(1)GIS与水文学 对于大部分GIS从业人员或者利用GIS作为研究方向的人员来说,水文学过于专业,更偏重于理论化,很难从GIS的角度来模拟和分析水文的过程.这其实是个普遍性的问题,任 ...

  10. 安装nginx+lua开发环境

    一.安装nginx及搭建本地测试环境 1.创建安装目录:    /data/nginx2.安装make:        yum-y install gcc automake autoconf libt ...