关于Solr搜索标点与符号的中文分词你必须知道的（mmseg源码改造）

摘要：在中文搜索中的标点、符号往往也是有语义的，比如我们要搜索“C++”或是“C#”，我们不希望搜索出来的全是“C”吧？那样对程序员来说是个噩梦。然而在中文分词工具mmseg中，它的中文分词是将标点与符号均去除的，它认为对于中文来讲标点符号无意义，这明显不能满足我们的需求。那么怎样改造它让它符合我们的要求呢？本文就是针对这一问题的详细解决办法，我们改mmseg的源代码。

关键字：Solr, mmseg, 中文, 分词, 标点, 符号, 语义

前提：Solr（5.0.0版本），mmseg4j（1.10.0版本）

作者：王安琪（博客地址：http://www.cnblogs.com/wgp13x/）

0、Solr的mmseg默认中文分词效果

做个实验，入Solr的语句为：t#\"\&\*CTY C# "#"&*^#とう華뭄내ㅛ #\"\&\*C8:8。3 C# \"#\"&*^#√とう，使用的是mmseg中的“max-word”型分词。分词后会变成什么样呢？在对Solr进行简单的mmseg配置操作后，我们在Solr的Analysis中对以上语句进行分析，如下图所示。

图0-1 mmseg默认中文分词效果

从上图中可以看出，默认的mmseg“max-word”型分词将所有的标点、符号都抛弃掉了，余下的只是中文、数字、英文、韩文、日文等。经过mmseg的其他类型如：“complex”和“simple”分析操作后，其结果也是把所有的标点、符号均删除。然而使用Ansj进行中文分词的话，其默认是不删除标点符号的。使用IKAanalyzer来进行中文分词，它也删除掉所有的标点符号。具体情况见博客：中文分词器性能比较 http://www.cnblogs.com/wgp13x/p/3748764.html。

mmseg在中文分词过程中删除标点符号，这直接导致搜索不出标点和符号，因为被删除的将不被建立索引，如：搜索“#”，返回的是所有。为了解释这个问题，我们分析一下Solr创建索引的过程。

1、Solr创建索引的过程

图1-1 Solr创建索引的过程

在搜索的过程中，新入的搜索字符串，也需要经历这几个过程，再将经历这些过程后的单词以“与”或“或”的关系，进行搜索。这就解释了，上一个问题，为什么输入的搜索条件是“#”，返回的是所有，因为条件经历这些过程后，条件是空，即搜索所有了。

2、Solr的mmseg经过改进后的中文分词效果

经过我们的改进，在入Solr的语句为：！，工；1 - 低 ... 时，中文分词效果如下图所示。

图2-1 mmseg经过改进后的中文分词效果

从上图可以看到，经过MMST后，所有的单词都已经大写小化了，所以可以去除LowerCaseFilter，对结果不影响，即在配置中将<filter class="solr.LowerCaseFilterFactory"/>去掉。再次分析的效果如下图所示：

图2-2 mmseg经过改进后并去除LowerCaseFilter后的中文分词效果

可以看出，C++这样输入的输出变成了：c | + | +，这样的话，当搜索条件为入C++时，便可以匹配出来了！这正是我们想要的。最终效果可以从下图中看出，在图2-3中将一串带有标点符号的字符串添加入Solr的mmseg fild中。在图2-4中对mmseg fild搜索带有标点符号的字符串，可以看到，刚添加的字符串被正确搜索到了！

图2-3 添加带有标点符号的Document

图2-4 搜索条件带有标点符号的搜索结果

3、Solr的mmseg的中文分词效果改进办法

首先，根据mmseg作者chenlb https://github.com/chenlb/mmseg4j-solr 的提示与启发，可以在next()函数中进行修改源码，以达到不去除标点符号的目的。我们在mmseg源码中找到MMSeg类中存在next()函数，通过阅读源码，我们知道，这即是对已识别的各种类型的字符进行分门别类地处理，如数字、字母、韩语等。函数内对其他的字符均视为无效字符，其中标点与符号便落入了此类别，其对此类别的字符处理办法是：“不理睬”。下面就是我依照中文字符的处理过程，编写了标点与符号的处理过程，同时对空格及Tab、\n这些字符采取“不理睬”策略，因为他们真的是无语义的，具体的代码如下。

public Word next() throws IOException {

    // 先从缓存中取

    Word word = bufWord.poll();

    ;

    if (word == null) {

        bufSentence.setLength(0);

        int data = -1;

        boolean read = true;

        while (read && (data = readNext()) != -1) {

            read = false; // 默认一次可以读出同一类字符,就可以分词内容

            int type = Character.getType(data);

            String wordType = Word.TYPE_WORD;

           switch (type) {

           。。。。。。。。

            case Character.SPACE_SEPARATOR:

            case Character.CONTROL:

                read = true;

                break;

            default:

            // 其它认为无效字符

            // read = true;

                bufSentence.appendCodePoint(data);

                readChars(bufSentence, new ReadCharByType(type));

            // bufWord.add(createWord(bufSentence, Word.TYPE_LETTER));

                currentSentence = createSentence(bufSentence);

                bufSentence.setLength(0);

            }// switch

        // 中文分词

        if (currentSentence != null) {

            do {

                Chunk chunk = seg.seg(currentSentence);

                for (int i = 0; i < chunk.getCount(); i++) {

                    bufWord.add(chunk.getWords()[i]);

                }

            } while (!currentSentence.isFinish());

            currentSentence = null;

        }

        word = bufWord.poll();

    }

    return word;

}

经过编译后，将MMSeg类相关的class替换到mmseg4j-core-1.10.0.jar目录下，如图3-1所示。然后重新部署Solr，一切运行正常！

图3-1 编译并替换MMSeg

4、Solr的配置补充

经过刚才的操作，已经解决了标点与符号删除的问题。下面讲一下autoGeneratePhraseQueries的配置。

图4-1 mmSeg配置

如上图的配置所示，autoGeneratePhraseQueries="false"，autoGeneratePhraseQueries配置为false有下面的作用：将搜索关键词分词后，以或的条件进行搜索，比如入的是，搜索关键词是，关键词经过分词后有些分词结果不在Doc范围内，但是仍旧可以搜索出来；然而如果autoGeneratePhraseQueries="true" ，则搜索不出来，此时是且的关系。

这简直是太棒了！

来自王安琪

关于Solr搜索标点与符号的中文分词你必须知道的（mmseg源码改造）的更多相关文章

Lucene全文搜索之分词器：使用IK Analyzer中文分词器（修改IK Analyzer源码使其支持lucene5.5.x）
注意:基于lucene5.5.x版本一.简单介绍下IK Analyzer IK Analyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2 ...
【Lucene3.6.2入门系列】第14节_SolrJ操作索引和搜索文档以及整合中文分词
package com.jadyer.solrj; import java.util.ArrayList; import java.util.List; import org.apache.solr. ...
Solr入门之（8）中文分词器配置
Solr中虽然提供了一个中文分词器,但是效果很差,可以使用IKAnalyzer或Mmseg4j 或其他中文分词器. 一.IKAnalyzer分词器配置: 1.下载IKAnalyzer(IKAnalyz ...
我的搜索优化记录(一)：中文分词优化IK Analyzer
搜索绝对不仅仅是搭起框架,跑出结果就完成的工作,之后分词.排序等等的优化才是重头戏. 先交代下背景:这个搜索是我一个人负责搭建并优化的项目,主要索引对象为歌曲.歌手MV等等. 使用技术:Lucene. ...
【中文分词】简单高效的MMSeg
最近碰到一个分词匹配需求--给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS ...
Spring实战（中文4,5版） PDF含源码
Spring实战读者评价看了一半后在做评论,物流速度挺快,正版行货,只是运输过程有点印记,但是想必大家和你关注内容,spring 4必之3更加关注的是使用注解做开发,对于初学者还是很有用,但是不排 ...
solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)
基本说明 Solr是一个开源项目,基于Lucene的搜索服务器,一般用于高级的搜索功能: solr还支持各种插件(如中文分词器等),便于做多样化功能的集成: 提供页面操作,查看日志和配置信息,功能全面 ...
Solr4.0+IKAnalyzer中文分词安装(转)
有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化.不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了.2年前接触了solrcloud,那时大概玩了一周.那 ...
Solr4.0+IKAnalyzer中文分词安装
1.依赖: JDK1.6,Tomcat 5.5,Solr 4.0.0,IKAnalyzer 2012FF Tomcat虽然不是必须,但觉得上生产环境的话,还是得用Tomcat,便于统一管理和监控. T ...

随机推荐

ASP.NET MVC5--添加验证
1.在Model类里面添加验证,代码如下: public class Movie { public int ID { get; set; } [StringLength(,MinimumLength= ...
【iOS】编译静态库
与java和.net一样,objc也由类库的概念,不过在在objc上一般叫库,库表示程序代码集合,可以共享给其他程序使用,库是编译后的二进制文件,因此不能看到源代码,多用于一些开放sdk(如百度地图s ...
晒自己做的一个管理系统（清新风格）EasyUI
最近项目结束了,现在也要自己总结一下自己的成果了,总结会加深自己对项目的印象的.这里我就先晒一些作品图片了,希望大家看了会赞美一个! 项目虽然结束了,但是接下来的这个项目可就不是我一个人可以搞定的了, ...
野比的示波器案例(Winfrom用户控件)
使用该用户控件做的效果图,如果数据正确,可实现波形.直线.等等效果图...... 对于本程序的认识还是不够深彻.如果有其他方法或算法,欢迎讨论下.将我所能理解的代码都再次标识了一番. ------- ...
PHP生成图片验证码demo【OOP面向对象版本】
下面是我今天下午用PHP写的一个生成图片验证码demo,仅供参考. 这个demo总共分为4个文件,具体代码如下: 1.code.html中的代码: <!doctype html> < ...
小白初学Ioc、DI、Castle Windsor依赖注入，大神勿入（不适）
过了几天,我又来了.上一篇中有博友提到要分享下属于我们abp初学者的历程,今天抽出点时间写写吧.起初,我是直接去看阳光铭睿的博客,看了一遍下来,感觉好多东西没接触过,接着我又去下了github 里面下 ...
.NET Core Roadmap
This post was written by Scott Hunter. It has been about two weeks since we shipped .NET Core / ASP. ...
Android应用开发基础之九：内容提供者（ContentProvider）
内容提供者应用的数据库是不允许其他应用访问的内容提供者的作用:就是让别的应用访问到你的数据库自定义内容提供者,继承ContentProvider类,重写增删改查方法,在方法中写增删改查数据库的代 ...
Android5.0新特性——阴影和剪裁（shadow）
阴影和剪裁 View的z属性 Material Design建议为了凸显布局的层次,建议使用阴影效果,并且Android L为了简化大家的工作,对View进行了扩展,能使大家非常方便的创建阴影效果: ...
我的一个javascript项目的重构历程
一个月前,组内的一个内部使用的浏览器比价插件的前端部分交给我来维护,作为一个老司机我是拒绝的,自己的代码都是坑,还要去给别人填坑,搞笑地说. 呵呵,能拒绝么.... 好好享受吧,骚年...... 第一 ...

关于Solr搜索标点与符号的中文分词你必须知道的（mmseg源码改造）

关于Solr搜索标点与符号的中文分词你必须知道的（mmseg源码改造）的更多相关文章

随机推荐

热门专题