Manticore search加一个中文分词

Sphinx search 是一款非常棒的开源全文搜索引擎，它使用C++开发，索引和搜索的速度非常快，我使用sphinx的时间也有好多年了。最初使用的是coreseek，一个国人在sphinxsearch基础上添加了mmseg分词的搜索引擎，可惜后来不再更新，sphinxsearch的版本太低，bug也会出现；后来也使用最新的sphinxsearch，它可以支持几乎所有语言，通过其内置的ngram tokenizer对中文进行索引和搜索。

但是，像中文、日文、韩文这种文字使用ngram还是有很大弊端的：

当Ngram=1时，中文（日文、韩文）被分解成一个个的单字，就像把英文分解成一个个字母那样。这会导致每个单字的索引很长，搜索效率下降，同时搜索结果习惯性比较差。

当Ngram=2或更大时，会产生很多无意义的“组合”，比如“的你”、“为什”等，导致索引的字典、索引文件等非常大，同时也影响搜索速度。

基于以上弊端，为中日韩文本加入分词的tokenizer是很有必要的。

于是决定来做这件事。先去Sphinxsearch网站去看看，发现它已经发布了新的3.x版本，而且加入了很多很棒的特性，然而它从Sphinxsearch 3.x 开始，暂时不再开源. 不过，部分前Sphinxsearch的开发人员跳出来成立新团队，在Sphinx 2.x版本基础上开发自己的Manticoresearch。这两者很像，从它们的名字就可以看出来，这俩都是狮身怪兽。

Sphinx 是（古埃及）狮身人面像，Manticore 是（传说中的）人头狮身龙（蝎）尾怪兽

Manticoresearch 从Sphinxsearch 继承而来，并做了性能优化. 因此，我选择了Manticoresearch 来添加中日韩分词。

首先从Manticoresearch的github仓库pull最新的代码来谈价，后面我也会尽力与Manticoresearch的主分支保持同步。

算法实现

算法基于字典，具体是cedar的实现的双数组trie。cedar是C++实现的高效双数组trie，也是分词字典的最佳之选。cedar的协议是GNU GPLv2, LGPLv2.1, and BSD;或者email联系作者所要其它协议。

通过最小匹配（而非单字）来匹配字典和字符串，把字符串分割成最短（而非单字）的词。如果遇到处理不了的歧义时，以单字做词。这样的目的是，保证搜索时能找到这些内容而不丢失。

稍微解释一下，对于搜索引擎的分词为什么这么做：

搜索引擎要能找到尽可能全内容：最彻底的方法是ngram=1，每个字单独索引，这样你搜索一个单字“榴”时，含有“榴莲”的文本会被找到，但缺点就如前面所说。
搜索引擎要能找到尽可能相关的内容：分词就是比较好的方法，对词进行索引，这样你搜索一个单字“榴”时，含有“榴莲”的文本就不会被找到。但分词的粒度要小，比如“编程语言”这是一个词组，如果把这个分成一个词，你搜索“编程”时，就找不到只含“编程语言”的文本，同样的，“上海市”要分成“上海”和“市”，等等。所以，“最小匹配”适用于搜索引擎。

编译安装

从github仓库manticoresearch-seg获取源码，编译方法跟Manticoresearch一样，具体看官方文档。

使用方法

1. 准备词表把所有词写到一个txt文件，一行一个词，如下所示：

# words.txt

中文

中国語

중국어

2. 创建字典成功编译代码后，就会得到创建字典的可执行程序make_segdictionary. 然后执行命令:

./make_segdictionary words.txt words.dict

这样就得到了字典文件: words.dict

3. 配置索引只需在配置文件的 index {...} 添加一行即可：

index {

    ...

    seg_dictionary = path-to-your-segmentation-words-dictionary

    ...

}

提醒: 分词对批量索引和实时索引都起作用。

文章分享来至我的博客：https://www.yuanrenxue.com/

Manticore search加一个中文分词的更多相关文章

solr4.7中文分词器（ik-analyzer）配置
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器. 一.版本信息 solr版本:4.7.0 需 ...
开源中文分词工具探析（三）：Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高 ...
北大开源全新中文分词工具包：准确率远超THULAC、结巴分词
最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率.其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 3.25% 与 4.32% ...
转：从头开始编写基于隐含马尔可夫模型HMM的中文分词器
http://blog.csdn.net/guixunlong/article/details/8925990 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之一 - 资源篇首先感谢52nlp的 ...
沉淀再出发：ElasticSearch的中文分词器ik
沉淀再出发:ElasticSearch的中文分词器ik 一.前言为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了 ...
ElasticSearch的中文分词器ik
一.前言为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了,因此我们需要一个中文分词器来用于搜索和使用. 二.IK ...
【中文分词】条件随机场CRF
之前介绍的MMEM存在着label bias问题,因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW:比较有意思的是,这篇文章的二 ...
Solr入门之（8）中文分词器配置
Solr中虽然提供了一个中文分词器,但是效果很差,可以使用IKAnalyzer或Mmseg4j 或其他中文分词器. 一.IKAnalyzer分词器配置: 1.下载IKAnalyzer(IKAnalyz ...
solr4.5配置中文分词器mmseg4j
solr4.x虽然提供了分词器,但不太适合对中文的分词,给大家推荐一个中文分词器mmseg4j mmseg4j的下载地址:https://code.google.com/p/mmseg4j/ 通过以下 ...

随机推荐

SQL中group by后面的having中不能使用别名
如下图中,SQL中需要对group by的结果使用having进行过滤,不能使用select中定义的别名,需要使用查询字段的原始名.否则会报错,列明未定义. 下图未错误演示: 修改后,正确的SQL语句 ...
C# Redis 缓存应用主要代码及版本选择
/// <summary> /// RedisManager类主要是创建链接池管理对象的 /// </summary> public class RedisManager { ...
docker 导出多个镜像合并成一个tar
导出单个镜像 docker save [images] > [name.tar] 倒出多个镜像合并成一个tar包 docker save [images] [images] > [name ...
Django：（05）类视图，装饰器和中间件
一.类视图的定义和使用在Django中还可以通过类来定义一个视图,称为类视图. 定义一个类视图:定义一个类,需继承 Django 提供的 View 类 . from django.views.gen ...
web安全checklist
web安全漏洞场景分析输入输出检验不充分设计缺陷环境缺陷
【操作系统】【C/C++开发】内存管理
内存管理操作系统对内存的划分和动态分配,就是内存管理的概念.有效的内存管理在多道程序设计中非常重要,不仅方便用户使用存储器.提高内存利用率,还可以通过虚拟技术从逻辑上扩充存储器.内存管理的功能有: ...
【VS开发】CSplitterWnd的定制使用
一.基本的CSplitterWnd的使用 1. 在CMainFrame中添加一个CSplitterWnd成员: CSplitterWnd m_splitterwnd1; 2. 基于CView创建两个新 ...
nRF5 SDK Bootloader and DFU moudles(1)
在嵌入式操作系统中,BootLoader是在操作系统内核运行之前运行.可以初始化硬件设备.建立内存空间映射图,从而将系统的软硬件环境带到一个合适状态,以便为最终调用操作系统内核准备好正确的环境. 在嵌 ...
beam search 和 greedy search
贪心搜索(greedy search): 贪心搜索最为简单,直接选择每个输出的最大概率,直到出现终结符或最大句子长度. 集束搜索(beam search): 集束搜索可以认为是维特比算法的贪心形式,在 ...
python 爬虫基于requests模块发起ajax的post请求
基于requests模块发起ajax的post请求需求:爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定某个城市地点的餐厅数据点击肯德基餐厅查 ...

Manticore search加一个中文分词

Manticore search加一个中文分词的更多相关文章

随机推荐

热门专题