Key-Value Store Indexer(Lily HBase Indexer) 小型采坑

环境：

Cloudera Express 5.12.1
JDK 1.8.0_92
CentOS 7

步骤1:数据导入到Hbase中(非正题，跳过)

hbase中表为allDoc,两个Family：fulltext，fileInfo
fulltext中就一列：fulltext
fileInfo中有如下几列serialNumber，verdictType，hashCode，fileName

步骤2:生成实体配置文件（我这里用的root账户）

solrctl instancedir --create /root/config/

步骤3:配置/root/config/conf/schema.xml，增加分词器

<fields></fields>下增加字段,其中id为hbase的row_key，_version_字段必须有，否则报错，我这里只加了fulltext和serialnumber，这里的是solr中的schema

<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" />

<field name="serialnumber" type="string" indexed="true" stored="true" required="true" multiValued="false" />

<field name="fulltext" type="text_ch" indexed="true" stored="true" required="true" multiValued="false" />

<field name="_version_" type="long" indexed="true" stored="true"/>

增加中文分词器，下载对应版本的分词器：
下载地址：https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn/
我用的是：https://repository.cloudera.com/artifactory/cdh-releases-rcs/org/apache/lucene/lucene-analyzers-smartcn/4.10.3-cdh5.12.1/lucene-analyzers-smartcn-4.10.3-cdh5.12.1.jar
下载之后记得放到目录下/opt/cloudera/parcels/CDH-5.12.1-1.cdh5.12.1.p0.3/lib/solr/webapps/solr/WEB-INF/lib/lucene-analyzers-smartcn-4.10.3-cdh5.12.1.jar
然后schema.xml加入text_ch

<fieldType name="text_ch" class="solr.TextField" positionIncrementGap="100">

    <analyzer type="index">

        <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>

        <filter class="solr.SmartChineseWordTokenFilterFactory"/>

    </analyzer>

</fieldType>

　　步骤4:根据实体配置文件在Solr中建立collection

solrctl instancedir --create hbase-collection /root/config/

solrctl collection --create hbase-collection

　　步骤5:创建 Lily HBase Indexer 配置，下面两个文件我都放到了root文件夹下

新建一个XML文件morphline-hbase-mapper.xml，内容如下：(其中allDoc是hbase中的表名称)

<?xml version="1.0"?>

<indexer table="allDoc" mapper="com.ngdata.hbaseindexer.morphline.MorphlineResultToSolrMapper">

    <param name="morphlineFile" value="morphlines.conf"/>

</indexer>

　　创建morphlines.conf,内容如下:（这里是hbase到solr的映射）

morphlines : [

    {

            id : morphline

            importCommands : [

            "org.kitesdk.**",

            "com.ngdata.**"

        ]

            commands : [

            {

                extractHBaseCells {

                mappings : [

                        {

                    inputColumn : "fulltext:fulltext"

                    outputField : "fulltext"

                    type : string

                    source : value

                        },

                        {

                    inputColumn : "fileInfo:serialNumber"

                    outputField : "serialnumber"

                    type : string

                    source : value

                        }

                    ]

                }

            }

            { logDebug { format : "output record: {}", args : [

                        "@{}"

                    ]

                }

            }

        ]

    }

]

步骤6: 注册 Lily HBase Indexer配置

hbase-indexer delete-indexer -n docIndex

hbase-indexer add-indexer -n docIndex -c /root/morphline-hbase-mapper.xml -cp solr.zk=gs-server-5002:2181,gs-server-5001:2181,gs-server-5000:2181/solr -cp solr.collection=hbase-collection8 -z gs-server-5002:2181,gs-server-5001:2181,gs-server-5000:2181

hbase-indexer list-indexers   #查看是否正常运行

步骤7: 批量导入:

Shell脚本：（lucene-analyzers-smartcn-4.10.3-cdh5.12.1.jar 在root目录中也有一份，这个脚本也放到了root目录中）

COLLECTION='hbase-collection'

ZK='gs-server-5002:2181,gs-server-5001:2181,gs-server-5000:2181'

echo 'Delete previous docs...'

solrctl collection --deletedocs $COLLECTION

echo 'Lily HBase MapReduce indexing...'

config="/etc/hadoop/conf.cloudera.yarn"

parcel="/opt/cloudera/parcels/CDH"

jar="$parcel/lib/hbase-solr/tools/hbase-indexer-mr-*-job.jar"

hbase_conf="/etc/hbase/conf/hbase-site.xml"

opts="'mapred.child.java.opts=-Xmx1024m'"

log4j="$parcel/share/doc/search*/examples/solr-nrt/log4j.properties"

zk="$ZK/solr"

libjars="lucene-analyzers-smartcn-4.10.3-cdh5.12.1.jar"

export HADOOP_OPTS="-Djava.security.auth.login.config=conf/jaas.conf"

hadoop --config $config jar $jar --conf $hbase_conf --libjars $libjars -D $opts --log4j $log4j --hbase-indexer-file morphline-hbase-mapper.xml --verbose --go-live --zk-host $zk --collection $COLLECTION

ZK为Zookeeper集群地址,修改COLLECTION为之前生成的，生效基本都保持不变morphline-hbase-mapper.xml是步骤5配置生成的xml文件

总体来说不算太难，但是有很多坑。。

因为批量导入采用的是MapReduce，经常出现OOM，或者exit Code 154，Map 阶段154这个忽略了，因为重试之后几乎都可以通过(调整容器内存可以直接避免这个问题)，在调整Map Reduce的内存过程中花了好多时间，另外还有就是编码问题，出现SolrServerException: org.apache.solr.client.solrj.SolrServerException: java.lang.RuntimeException: [was class java.io.CharConversionException] Invalid UTF-8 character 0xffff at char #18928, byte #47990)

这个问题暂时未解决，查阅资料说可以用如下方法解决，正在尝试（数据导入估计得2-3天，慢慢等等看了）：

 public static String stripNonCharCodepoints(String input) {

        StringBuilder retval = new StringBuilder();

        char ch;

        for (int i = 0; i < input.length(); i++) {

            ch = input.charAt(i);

            // Strip all non-characters

            // http://unicode.org/cldr/utility/list-unicodeset.jsp?a=[:Noncharacter_Code_Point=True:]

            // and non-printable control characters except tabulator, new line and

            // carriage return

            if (ch % 0x10000 != 0xffff && // 0xffff - 0x10ffff range step 0x10000

                    ch % 0x10000 != 0xfffe && // 0xfffe - 0x10fffe range

                    (ch <= 0xfdd0 || ch >= 0xfdef) && // 0xfdd0 - 0xfdef

                    (ch > 0x1F || ch == 0x9 || ch == 0xa || ch == 0xd)) {

                retval.append(ch);

            }

        }

        return retval.toString();

    }

资料参考：

http://www.aboutyun.com/thread-24447-1-1.html

http://fbinbin.iteye.com/blog/2357294

https://blog.csdn.net/d6619309/article/details/51304135?locationNum=1&fps=1

https://github.com/apache/nutch/blob/master/src/plugin/indexer-solr/src/java/org/apache/nutch/indexwriter/solr/SolrUtils.java#L76

https://blog.csdn.net/vegetable_bird_001/article/details/53420131

Key-Value Store Indexer(Lily HBase Indexer) 小型采坑的更多相关文章

Lily HBase Indexer同步HBase二级索引到Solr丢失数据的问题分析
一.问题描述二.分析步骤2.1 查看日志2.2 修改Solr的硬提交2.3 寻求StackOverFlow帮助2.4 修改了read-row="never"后,丢失部分字段2.5 ...
hbases索引技术：Lily HBase Indexer介绍
Lily HBase Indexer 为hbase提供快速查询,他允许不写代码,快速容易的把hbase行索引到solr.Lily HBase Indexer drives HBase indexing ...
Lily hbase indexer搭建配置概要文档
1.solrcloud搭建好2.hbase-solr-indexer服务开启3.确定hbase中的对应的表开启replication功能 create '} // 1表示开启replication 已 ...
solr6.3 + Hbase Indexer使用MR创建索引，错误Bad return type
使用solr6.3 + Hbase Indexer ,通过Hbase-indexer从Hbase建立索引到solr中,进行全文搜索. 两种实现方式:① 开启hbase-indexer进行实时同步新数据 ...
etcd -> Highly-avaliable key value store for shared configuration and service discovery
The name "etcd" originated from two ideas, the unix "/etc" folder and "d&qu ...
hbase部署经验与坑总结
1.本地单机部署hbase,想要使用独立zookeeper,不使用自带的 vim conf/hbase-env.sh export HBASE_MANAGES_ZK=false 设置不使用自带zook ...
APP store 上架过程中碰到的那些坑&被拒的各种奇葩原因整理&审核指南中文版
苹果官方发布的十大常见被拒原因 1.崩溃次数和Bug数量.苹果要求开发者在将应用提交给App Store之前彻查自己的应用,以尽量避免Bug的存在. 2.链或错误的链接.应用中所有的链接必须是真实且有 ...
openTSDB+HBase+ZK遇到的坑汇总
1.zookeeper返回的hbase地址是hostname,外网如何访问? 如果需要直接访问zk获取hbase地址进而访问,目前需要本机配置host ip hostname 如果是要长期解决方法, ...
CDH版本Hbase二级索引方案Solr key value index
概述在Hbase中,表的RowKey 按照字典排序, Region按照RowKey设置split point进行shard,通过这种方式实现的全局.分布式索引. 成为了其成功的最大的砝码. 然而单一 ...

随机推荐

【一天一道LeetCode】#51. N-Queens
一天一道LeetCode系列 (一)题目 The n-queens puzzle is the problem of placing n queens on an n×n chessboard suc ...
你可能不知道的5种 CSS 和 JS 的交互方式
翻译人员: 铁锚翻译日期: 2014年01月22日原文日期: 2014年01月20日原文链接: 5 Ways that CSS and JavaScript Interact That You ...
Mahout 模糊kmeans
Mahout 模糊KMeans 一.算法流程模糊 C 均值聚类(FCM),即众所周知的模糊 ISODATA,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法.1973 年,Bezdek 提 ...
断言(Assertion)需要注意的一个地方
因为断言只在debug构建中有效,所以它是中关重要的去避免运行任何代码或调用任何方法在断言条件中,而这些代码或方法会影响程序的状态. 否则程序的行为将在debug和release构建中变得不一致,这显 ...
Java-instanceof总结
纸上得来终觉浅,绝知此事要躬行 --陆游问渠那得清如许,为有源头活水来 --朱熹 instanceof其实是Java的一个二元操作符,用于判断左边的对象是否是右边这个特定的类或者它的子类的 ...
64位ubuntu14.04配置adb后提示没有那个文件或目录
1.配置完adb环境变量后在终端输入adb: ameyume@ameyume-HP-450-Notebook-PC:~$ adb /home/ameyume/adt-bundle-linux-x86_ ...
Workflow Notification Mailer Setup
Workflow notification mailer setup in R12 is similar to 11i ( In both release 11i (OWF.H and higher ...
SpriteBuilder中的粒子系统属性
一个粒子发射器可以有2种模式,放射状和重力的(radial or gravity) 放射状模式允许你去使用发射器创建粒子旋涡状环绕在指定位置的效果. 当启用重力效果,你可以使得粒子在任何方向任意飞行, ...
【一天一道LeetCode】#5 Longest Palindromic Substring
一天一道LeetCode系列 (一)题目 Given a string S, find the longest palindromic substring in S. You may assume t ...
android自定义状态栏颜色
我们知道IOS上的应用,状态栏的颜色总能与应用标题栏颜色保持一致,用户体验很不错,那安卓是否可以呢?若是在安卓4.4之前,答案是否定的,但在4.4之后,谷歌允许开发者自定义状态栏背景颜色啦,这是个不错 ...

Key-Value Store Indexer(Lily HBase Indexer) 小型采坑

Key-Value Store Indexer(Lily HBase Indexer) 小型采坑的更多相关文章

随机推荐

热门专题