Solr的中英文分词实现

对于Solr应该不需要过多介绍了，强大的功能也是都体验过了，但是solr一个较大的问题就是分词问题，特别是中英文的混合分词，处理起来非常棘手。虽然solr自带了支持中文分词的cjk，但是其效果实在不好，所以solr要解决的一个问题就是中文分词问题，这里推荐的方案是利用ik进行分词。

ik是较早作中文分词的工具，其效果也是得到多数用户认同。但是现在作者似乎更新缓慢，对于最新的solr4.4支持不好，最新的更新也停留在2012年。

虽然不支持4.4版本（这也不是作者的错，solr的lucene的新版本接口都进行了修改，除非修改实现不然就没法向下兼容），但是我们也有办法的，我们可以利用他的分词工具自己封装一个TokenizerFactory，通过实现最新的4.4接口就可以让solr4.4用上ik了。

首先就是就在下载ik的原码，最新版是然后自己实现一个TokenizerFactory：

package org.wltea.analyzer.lucene;

import java.io.Reader;

import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;

import org.apache.lucene.analysis.util.TokenizerFactory;

import org.apache.lucene.util.AttributeSource.AttributeFactory;

public class IKAnalyzerTokenizerFactory extends TokenizerFactory{

    private boolean useSmart;

    public boolean useSmart() {

        return useSmart;

    }

    public void setUseSmart(boolean useSmart) {

        this.useSmart = useSmart;

    }

    public IKAnalyzerTokenizerFactory(Map<String, String> args) {

        super(args);

        assureMatchVersion();

        this.setUseSmart(args.get("useSmart").toString().equals("true"));

    }

    @Override

    public Tokenizer create(AttributeFactory factory, Reader input) {

        Tokenizer _IKTokenizer = new IKTokenizer(input , this.useSmart);

        return _IKTokenizer;

    }

}

然后重新打包jar放到solr的执行lib里，同时新建一个fieldType

<fieldType name="text_ik" class="solr.TextField" >

  <analyzer type="index">

    <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerTokenizerFactory" useSmart="false"/>

  </analyzer>

  <analyzer type="query">

    <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerTokenizerFactory" useSmart="true"/>

  </analyzer>

</fieldType>

测试一下我们新的分词器：

// 输入

移动互联网

// 输出

移动，互联网，互联，联网

从结果来看，其效果还是比较不错的。

搞定了中文我们需要搞定英文英文简单的分词是按照空格，标点，stopword等来分词。比如I'm coding一般可以分词为I'm, coding或者I, m, coding。一般情况下这样也是可以接受的，但是如果用户输入code，是否应该搜到结果呢，如果要搜到该结果，那么我们需要处理我们的英文分词。

这里提供一种简单的实现，就是采用NGramFilterFactory，该过滤器简单的按照长度对词进行切分，该过滤器有两个参数minGramSize和maxGramSize，分别表示最小和最大的切分长度，默认是1和2。

<analyzer>

  <tokenizer class="solr.StandardTokenizerFactory"/>

  <filter class="solr.NGramFilterFactory" minGramSize="1" maxGramSize="4"/>

</analyzer>

比如设置(min,max)为(3,5)，我们上面的句子“I'm coding”会得到以下的结果：

I'm，cod，codi，codin，coding，odi，odin，oding，din，ding，ing

当然这里也会有问题，就是小于3个词长的都会被过滤调，特别是中文和英文采用的是同一词长处理，如果min设为3，那么像我，我们这样的都会被过滤，解决办法就是min设为1，这样的结果就是会大大增加索引记录。影响检索速度。好处就是可以实现字母级别的匹配，然后通过设置匹配度阔值提升了搜索质量。

分别处理完了中文和英文，那么就要混合中英文处理了

方案一是使用StandardTokenizerFactory和NGramFilterFactory，加上辅助的StopFilterFactory和LowerCaseFilterFactory等过滤器处理。也就是中文默认是按字逐个分开，当然前提是NGramFilterFactory的minGramSize要设置为1。
方案二则是IKAnalyzerTokenizerFactory和NGramFilterFactory，通过ik实现对词的索引，然后在通过ngram进行长度分割。即在方案一的基础上增加对词的索引，提升索引质量。
方案一和方案二如果还不够和谐的，那么我们还有个办法就是自定义的反感三，所谓自定义，自己写个tokenizer或者filter不就可以了，而且这一点也不复杂，这里就不细说了，有机会再专门写一个。

最后来个整合的配置参考一下：

<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">

  <analyzer type="index">

    <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerTokenizerFactory"  useSmart="false"/>

    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />

    <filter class="solr.LowerCaseFilterFactory"/>

    <filter class="solr.NGramFilterFactory" minGramSize="1" maxGramSize="20"/>

  </analyzer>

  <analyzer type="query">

    <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerTokenizerFactory"  useSmart="true"/>

    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />

    <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

    <filter class="solr.LowerCaseFilterFactory"/>

    <filter class="solr.NGramFilterFactory" minGramSize="1" maxGramSize="10"/>

  </analyzer>

</fieldType>

这里所提出的并不是最优的方案，或者说可能是比较傻瓜化的方案，但是solr的优势就是自由，你可以自己组合各种tokenizer和filter来实现你要的效果，或者干脆自己去实现tokenizer和filter，然后让强大的solr服务于你的项目。

参考：

Solr的中英文分词实现的更多相关文章

[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例二.
为了更好的排版, 所以将IK分词器的安装重启了一篇博文, 大家可以接上solr的安装一同查看.[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一: http://ww ...
PHP+mysql数据库开发搜索功能：中英文分词+全文检索（MySQL全文检索+中文分词（SCWS））
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词: a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...
solr集成mmseg4j分词
solr集成mmseg4j分词 mmseg4j https://code.google.com/p/mmseg4j/ https://github.com/chenlb/mmseg4j-solr 作者 ...
Solr安装中文分词器IK
安装环境 jdk1.7 solr-4.10.3.tgz KAnalyzer2012FF_u1.jar tomcat7 VM虚拟机redhat6.5-x64:192.168.1.201 Xshell4 ...
nutch集成solr和中文分词
nutch集成solr和中文分词一.构建nutch环境 1. 设置代理由于nutch使用ant构建,ant调用ivy,会从maven仓库中下载依赖包,因此若公司需要代理才能上网,需要设置代理,如果 ...
[Linux]Linux下安装和配置solr/tomcat/IK分词器详细实例一.
在这里一下讲解着三个的安装和配置, 是因为solr需要使用tomcat和IK分词器, 这里会通过图文教程的形式来详解它们的安装和使用.注: 本文属于原创文章, 如若转载,请注明出处, 谢谢.关于设置I ...
Solr整合中文分词组件IKAnalyzer
我用的Solr是4.10版本, 在csdn下载这个版本的IKAnalyzer:IK Analyzer 2012FF_hf1.zip 解压后目录如下: (1)这里还用solr自带的example实验分词 ...
Solr和IK分词器的整合
IK分词器相对于mmseg4J来说词典内容更加丰富,但是没有mmseg4J灵活,后者可以自定义自己的词语库.IK分词器的配置过程和mmseg4J一样简单,其过程如下: 1.引入IKAnalyzer.j ...
solr+jieba结巴分词
为什么选择结巴分词分词效率高词料库构建时使用的是jieba (python) 结巴分词Java版本下载 git clone https://github.com/huaban/jieba-ana ...

随机推荐

div学习之div中dl-dt-dd的详解
dl dt dd认识及dl dt dd使用方法 <dl> 标签用于定义列表类型标签. dl dt dd目录 dl dt dd介绍结构语法 dl dt dd案例 dl dt dd总结一. ...
java——多态
多态定义:某一类事物的多种存在形态.对象的多态性.猫这类事物即具备猫的形态,又具备着动物的形态,这就是对象的多态性.简单说:就是一个对象对应着不同类型.多态在代码中的体现:父类或者接口的引用指向其子类 ...
Day7 类的继承和继承实现的原理
继承可以分为但继承,多继承. 继承的基本形式 class ParentClass1(object): #定义父类 pass class ParentClass2: #定义父类 pass class S ...
Ocelot中文文档-中间件注入和重写
警告!请谨慎使用. 如果您在中间件管道中看到任何异常或奇怪的行为,并且正在使用以下任何一种行为.删除它们,然后重试! 当在Startup.cs中配置Ocelot的时候,可以添加或覆盖中间件.如下所示: ...
从输入一个URL到页面完全显示发生了什么？
这是经典的前端问题,主要是对浏览器的工作原理有个理解! 网络通信走的一般是五层因特网协议,详见下图.图片来自于https://images2018.cnblogs.com/blog/882926/20 ...
对JavaScript事件机制的一点理解
JavaScript通过事件机制实现了异步操作,这种异步操作可以使CPU可以在IO任务的等待中被释放出来处理其他任务,等待IO结束再去处理这个任务.这个是一个基本的事件机制. 那么是不是说事件从监听到 ...
C#高级编程笔记之第二章：核心C#
变量的初始化和作用域 C#的预定义数据类型流控制枚举名称空间预处理命令 C#编程的推荐规则和约定变量的初始化和作用域初始化 C#有两个方法可以一确保变量在使用前进行了初始化: 变量是字段, ...
python 编码形式简单入门
为什么使用Python 假设我们有这么一项任务:简单测试局域网中的电脑是否连通.这些电脑的ip范围从192.168.0.101到192.168.0.200. 思路:用shell编程.(Linux通常是 ...
javascript 易漏点
javascript 是一种解释型语言,不是java或c++那样的编译语言.javascript指令以普通文本形式传递给浏览器,然后依次解释执行.它们不必首先“编译”成只有计算机处理器能理解的机器码. ...
MySQL索引的使用
1.创建和查看索引所谓普通索引,就是在创建索引时,不附加任何限制条件(唯一.非空等限制).该类型的索引可以创建在任何数据类型的字段上. (1)创建表时,创建普通索引语法: 例子: (2)在已经存在 ...

Solr的中英文分词实现

Solr的中英文分词实现的更多相关文章

随机推荐

热门专题