在上一节【编译Ansj之Solr插件】中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包、在schema中配置相关类型、将ansj和nlp-lang等jar包配置到solr中、测试ansj分词效果。

一、下载或者编译ansj-seg和nlp-lang等jar包。

   1、您可以到 http://maven.ansj.org/org/ansj/ansj_seg/  | http://maven.ansj.org/org/nlpcn/ 中下载相关jar包。

    ansj-seg相关jar包,如下图所示:

    

nlp-lang 是ansj-seg分词中关于自然语言处理相关工具类,功能比较强大:

   

  2、下载相关源码,自己编译。

    这种是相对复杂的,但是如果长久使用,这种是很有必要的。对于这种优秀的分词,我们更有必要好好研究一番。

    github地址:https://github.com/NLPchina/ansj_seg

    git客户端地址:http://git-scm.com/download/

git下载源码命令:git clone  https://github.com/NLPchina/ansj_seg.git

    下载后的文件结构如下:

   

   可见代码是用maven组中管理的。对于maven的安装配置本文旧粗略带过,主要包括:

    下载maven相关包,解压:

     

   配置环境变量M2_HOME:C:\apache-maven-3.2.1

   配置PATHb环境变量:%M2_HOME%\bin;

   mvn常有命令:mvn clean install#清理本地缓存、下载依赖jar包 可以添加-DskipTests=true忽略单元测试;mvn eclipse:clean #清理mvn生成的eclipse工程;mvn eclipse:eclipse #根据pom.xml生成eclipse工程。

   步骤:

     在源码根路径下执行: mvn clean install -DskipTests=true  命令,在target目录下生成jar包。

    

    target目录:

    

   同义的道理,可以编译nlp-lang jar包,地址:https://github.com/NLPchina/nlp-lang   

二、在solr schema.xml中配置好ansj字段类型。

  1、创建ansj类型。

    找到schema.xml,添加ansj类型text_ansj: 

	<!--ansj start -->

	<fieldType name="text_ansj" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.ansj.solr.AnsjTokenizerFactory" isQuery="false"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.ansj.solr.AnsjTokenizerFactory"/>
</analyzer>
</fieldType> <!--ansj end -->

  org.ansj.solr.AnsjTokenizerFactory 是我们编译的ansj-lucene插件。

  2、配置需要索引的字段。    

   <!-- ansj_test field -->
<field name="POI_OID" type="string" indexed="false" stored="true"/>
<field name="POI_NAME" type="text_ansj" indexed="true" stored="false"/>
<field name="POI_NAME_SUGGEST" type="string" indexed="false" stored="true"/>
<field name="POI_ADDRESS" type="text_ansj" indexed="true" stored="false"/>
<field name="POI_ADDRESS_SUGGEST" type="string" indexed="false" stored="true"/>
<field name="POI_PHONE" type="string" indexed="true" stored="true"/>
<field name="POI_TYPE" type="string" indexed="true" stored="true" multiValued="true"/>
<field name="POI_URL" type="string" indexed="false" stored="true"/>
<field name="POI_DIANPING" type="string" indexed="true" stored="true" />
<field name="POI_BRAND" type="string" indexed="true" stored="true"/>
<field name="POI_CITY" type="string" indexed="true" stored="true" multiValued="true"/>
<field name="POI_TAG" type="text_ansj" indexed="true" stored="true"/>
<field name="POI_LAT" type="double" indexed="false" stored="true"/>
<field name="POI_LON" type="double" indexed="false" stored="true"/>
<field name="POI_DATA_TYPE" type="string" indexed="true" stored="false"/>

三、在solr环境中配置好ansj。

  在编译好的ansj-seg、nlp-lang、ansj_lucene4_plug 放到solr war包的lib下。

  

  

配置ansj相关词库和配置文件,这些配置文件在ansj源码目录下:

  

  把这三个配置文件放到solr程序WEB-INF/classes目录下,classes目录不存在则手动创建。

    

四、测试ansj分词效果。

  ansj配置好了以后,把solr所在的tomcat启动一下。用solr管理页面查看效果:

  1、测试分词 "南京市长江大桥”

  

    备注:在文本框中输入“南京市长江大桥” 点击右边蓝色的按钮“Analyse Values”

文章转载,请注明出处:http://www.cnblogs.com/likehua/p/4481219.html

在Solr中配置和使用ansj分词的更多相关文章

  1. 在Solr中配置中文分词IKAnalyzer

    李克华 云计算高级群: 292870151 交流:Hadoop.NoSQL.分布式.lucene.solr.nutch 在Solr中配置中文分词IKAnalyzer 1.在配置文件schema.xml ...

  2. Solr 06 - Solr中配置使用IK分词器 (配置schema.xml)

    目录 1 配置中文分词器 1.1 准备IK中文分词器 1.2 配置schema.xml文件 1.3 重启Tomcat并测试 2 配置业务域 2.1 准备商品数据 2.2 配置商品业务域 2.3 配置s ...

  3. Solr的配置和在java中的使用

    Solr是一个全局站内搜索引擎,可以快速的搜索出结果. Solr依赖于tomcat,把Solr的war包放到tomcat中即可运行. 使用solr,需要在solr的schema.xml中配置solr与 ...

  4. Solr中Schema.xml中文版

    <?xml version="1.0" encoding="UTF-8" ?> <!-- Licensed to the Apache Sof ...

  5. ansj分词

    本文转载至:https://blog.csdn.net/bitcarmanlee/article/details/53607776 最近的项目需要使用到分词技术.本着不重复造轮子的原则,使用了ansj ...

  6. Solr索引配置

    Solr主配置文件 schema.xml,在SolrCore的conf目录下,它是Solr数据表配置文件,它定义了加入索引的数据的数据类型的.主要包括FieldTypes.Fields和其他的一些缺省 ...

  7. elasticsearch安装ansj分词器

    1.概述    elasticsearch用于搜索引擎,需要设置一些分词器来优化索引.常用的有ik_max_word: 会将文本做最细粒度的拆分.ik_smart: 会做最粗粒度的拆分.ansj等. ...

  8. BugPhobia沟通篇章:Solr模式配置与数据导入调研

    0x01 :Scrum Meeting特别说明 特别说明,考虑到编译原理课程考核的时间安排,每天开发时间急剧缩短以至于难以维系正常的Scrum Meeting,因此,将2015/12/13 00:00 ...

  9. ansj分词史上最详细教程

    最近的项目需要使用到分词技术.本着不重复造轮子的原则,使用了ansj_seg来进行分词.本文结合博主使用经过,教大家用最快的速度上手使用ansj分词. 1.给ansj来个硬广 项目的github地址: ...

随机推荐

  1. 总结的一些微信API接口

    本文给大家介绍的是个人总结的一些微信API接口,包括微信支付.微信红包.微信卡券.微信小店等,十分的全面,有需要的小伙伴可以参考下. 1. [代码]index.php <?php include ...

  2. 【初探HTML本相】道之真谛不过自然,html标签脱俗还真

    前言 须弥般若有无空,阴阳道化真虚同:洗尽前恩本非相,还吾面目下九重. 咳咳,其实老夫对佛教文化有点点研究啦,说以我们这里来了一点很有哲理的东西,因为我这里准备干一件很戳的事情,我准备来看看我们的ht ...

  3. jQuery绑定事件的四种方式

      jQuery提供了多种绑定事件的方式,每种方式各有其特点,明白了它们之间的异同点,有助于我们在写代码的时候进行正确的选择,从而写出优雅而容易维护的代码.下面我们来看下jQuery中绑定事件的方式都 ...

  4. CSS基础教程 -- 媒体查询屏幕适配

    响应式布局 Media Query 的使用方法 在上例中, 我们使用Media Queries来根据3种不同尺寸的窗口使用3种不同的样式.通过不同的媒体类型和条件定义样式表规则,媒体查询让CSS可以更 ...

  5. fullPage教程 -- 整屏滚动效果插件 fullpage详解

    1.引用文件 [html] view plain copy print?在CODE上查看代码片派生到我的代码片 <link rel="stylesheet" href=&qu ...

  6. Flex Viewer(三)——Config的原理

    一.概述 在上文<深入浅出Flex Viewer(二)——体系结构>中,笔者详细介绍了到Flex Viewer框架,使得读者能够对该框架源代码的关键目录和文件结构和这些文件中所包含或涉及到 ...

  7. C语言的基本输入与输出函数

    C语言中最常用最基础的输入输出函数:printf() 和 scanf(); 例子: #import <Foundation/Foundation.h> int main(int argc, ...

  8. android加固系列—2.加固前先要学会破解,调试内存值修改程序走向

    [版权所有,转载请注明出处.出处:http://www.cnblogs.com/joey-hua/p/5138585.html] 因公司项目需要对app加固,经过本人数月的研究,实现了一套完整的仿第三 ...

  9. spring.net (2)环境搭建 对(1)例子的解释和扩充

    在上文中的例子实现了spring.net 控制反转的简单例子: 但是不免其中会有一些疑问. 例子中的配置文件是什么意思: app.config的配置规则可以参考web.config的配置详情 < ...

  10. OC中.pch文件的解释

      在IOS开发的项目中有一个Prefix.pch,.pch文件是什么?  Prefix.pch:扩展名.pch表示"precompiled header",这是一个你工程要用到的 ...