最近碰到一个分词匹配需求——给定一个关键词表,作为自定义分词词典,用户query文本分词后,是否有词落入这个自定义词典中?现有的大多数Java系的分词方案基本都支持添加自定义词典,但是却不支持HDFS路径的。因此,我需要寻找一种简单高效的分词方案,稍作包装即可支持HDFS。MMSeg分词算法正是完美地契合了这种需求。

1. MMseg简介

MMSeg是蔡志浩(Chih-Hao Tsai)提出的基于字符串匹配(亦称基于词典)的中文分词算法。基于词典的分词方案无法解决歧义问题,比如,“武汉市长江大桥”是应分词“武汉/市长/江大桥”还是“武汉市/长江/大桥”。基于此,有人提出了正向最大匹配策略,但是可能会出现分词错误的情况,比如:若词典中有“武汉市长”,则原句被分词成“武汉市长/江大桥”。单纯的最大匹配还是无法完美地解决歧义,因而MMSeg在正向最大匹配的基础上设计了四个启发式规则。isnowfy大神的《浅谈中文分词》对于各种主流的分词算法做了精辟的论述。

MMSeg的字符串匹配算法分为两种:

  • Simple,简单的正向最大匹配,即按能匹配上的最长词做切分;
  • Complex,在正向最大匹配的基础上,考虑相邻词的词长,设计了四个去歧义规则(Ambiguity Resolution Rules)指导分词。

在complex分词算法中,MMSeg将切分的相邻三个词作为词块(chunk),应用如下四个消歧义规则:

  1. 备选词块的长度最大(Maximum matching),即三个词的词长之和最大;
  2. 备选词块的平均词长最大(Largest average word length),即要求词长分布尽可能均匀;
  3. 备选词块的词长变化最小(Smallest variance of word lengths );
  4. 备选词块中(若有)单字的出现词自由度最高(Largest sum of degree of morphemic freedom of one-character words)。

这篇文章《mmseg分词算法及实现》对于这四个规则做了更为细致的介绍,本文无再赘言了。

2. 实战

MMSeg的Java实现有mmseg4j,本地路径添加自定义词典分词:

String txt = "在一起并发生了中文分词.";
// user-defined dictionary parent-path
Dictionary dic = Dictionary.getInstance("src\\resources\\dict");
Seg seg = new ComplexSeg(dic);
MMSeg mmSeg = new MMSeg(new StringReader(txt), seg);
Word word = null;
while ((word = mmSeg.next()) != null) {
System.out.print(word + "|");
}

mmseg4j("com.chenlb.mmseg4j" % "mmseg4j-core" % "1.10.0")没有wiki,通过分析源码才知道getInstance方法的路径参数应是父目录,并且词典文件的命名应符合规范:chars.dic(单字词表)、wordsXXX.dic(词长>1词表)。mmseg4j所加载的分词词典为类Dictionary数据成员Map<Character, CharNode> dict,其中Character为词的首字,CharNode是一棵trie树,存储拥有共同前缀(首字)的词。loadWord方法为加载自定义词表。

基于上面的代码分析,封装添加HDFS路径词典的Scala代码如下:

import com.chenlb.mmseg4j.CharNode
import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs.{FSDataInputStream, FileSystem, Path} import scala.io.Source /**
* @author rain
*/
object MMSegUtil {
// str[1:-1], the last len(str)-1 characters
def tail(str: String): Array[Char] = {
str.toCharArray.takeRight(str.length - 1)
} // load user-define word dictionary
def loadWord(path: String, dic: java.util.Map[Character, CharNode]) = {
val fs = FileSystem.get(new Configuration)
val in: FSDataInputStream = fs.open(new Path(path))
Source.fromInputStream(in).getLines()
.filter(_.length > 1)
.foreach { line =>
val cn: CharNode = dic.get(line.charAt(0))
cn match {
case null => dic.put(line.charAt(0), cn)
case _ => cn.addWordTail(tail(line))
}
}
}
}

即可在Spark程序中调用分词:

val dictionary = Dictionary.getInstance()
MMSegUtil.loadWord(dicPath, dictionary.getDict)
val seg = new ComplexSeg(dictionary)

值得指出,ComplexSeg类有List remove操作,因而不适于做成广播变量,不然则报ConcurrentModificationException。推荐的做法,配合RDD的mapPartitions在for yield外层new ComplexSeg;相当于每个Partition都有一个ComplexSeg。

mmseg4j存在分词不准确的情况,比如,『培养并发挥热忱的特性』被分词成『培养/并发/挥/热忱/的/特性』。这是因为mmseg4j的chars词典中,挥 20429的词频高于并 2789(针对于MMSeg的规则4)。基于词典的分词方案的准确性,严重依赖于词典;必须要有好的词典,才会有好的分词结果。

【中文分词】简单高效的MMSeg的更多相关文章

  1. crf++实现中文分词简单例子 (Windows crf++0.58 python3)

    学习自然语言处理的同学都知道,条件随机场(crf)是个好东西.虽然它的原理确实理解起来有点困难,但是对于我们今天用到的这个crf工具crf++,用起来却是挺简单方便的. 今天只是简单试个水,参考别人的 ...

  2. Sphinx+MySQL5.1x+SphinxSE+mmseg中文分词

    什么是Sphinx Sphinx 是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其它应用提供快速.低空间占用.高结果相关度的全文搜索功能.Sphinx能够很easy的与SQL数 ...

  3. Python环境下NIPIR(ICTCLAS2014)中文分词系统使用攻略

    一.安装 官方链接:http://pynlpir.readthedocs.org/en/latest/installation.html 官方网页中介绍了几种安装方法,大家根据个人需要,自行参考!我采 ...

  4. NLP舞动之中文分词浅析(一)

    一.简介        针对现有中文分词在垂直领域应用时,存在准确率不高的问题,本文对其进行了简要分析,对中文分词面临的分词歧义及未登录词等难点进行了介绍,最后对当前中文分词实现的算法原理(基于词表. ...

  5. 关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造)

    关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造) 摘要:在中文搜索中的标点.符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程 ...

  6. 基于MMSeg算法的中文分词类库

    原文:基于MMSeg算法的中文分词类库 最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(ht ...

  7. Mmseg中文分词算法解析

    Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project.使用场景涉及搜索 ...

  8. scws简单中文分词

    demo如下: /** * 中文分词 * @param $keyword * @param $getTop * @param $limit * @return array */ function sp ...

  9. 30.IK中文分词器的安装和简单使用

    在之前我们学的都是英文,用的也是英文的standard分词器.从这一节开始,学习中文分词器.中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中 ...

随机推荐

  1. input jquery 操作

    本文章主要为了总结开发常用的input等常见html的jquery操作,不是为了展示自己多么菜,只为了积累知识,勿喷!!!不断更新中 $(function () { $("input[nam ...

  2. daima

    # -*- coding: utf-8 -*- import theano import theano.tensor as T import numpy as np from sklearn impo ...

  3. Excel VBA 函数

    Instr函数 一. 定义 InStr 函数 返回 Variant (Long),指定一字符串在另一字符串中最先出现的位置. InStr([start, ]string1, string2[, com ...

  4. Java NIO2:缓冲区

    什么是缓冲区 一个缓冲区对象是固定数量的数据的容器,其作用是一个存储器,或者分段运输区,在这里数据可被存储并在之后用于检索.缓冲区像前篇文章讨论的那样被写满和释放,对于每个非布尔原始数据类型都有一个缓 ...

  5. Linux 自动同步服务器时间

    200 ? "200px" : this.width)!important;} --> 介绍 Linux服务器运行久时,系统时间就会存在一定的误差,本篇文章就来介绍怎样使服务 ...

  6. C/C++ makefile自动生成工具(comake2,autotools,linux),希望能为开源做点微薄的贡献!

      序     在linux下C或C++项目开发,Makefile是必备的力气,但是发现手写很麻烦. 在百度有个comake2工具,用于自动生成Makefile工具,而在外边本想找一个同类工具,但发现 ...

  7. 将nuget与VS直接集成,实现一键上传等功能

    nuget是一个非常方便的包管理工具,很多团队为了开发的方便也建立了自己的包源网站(nuget.server),本篇文章是笔者在配置nuget上面的一点小体,其最终目标是要达到能够在VS里一键打包上传 ...

  8. 获取bing.com的图片并在gnome3中设置自动切换

    发现 bing.com 上的图片很好看,因此打算每天把 bing.com 的图片下载下来,用作桌面. 需要做的是两个部分,爬取图片到目录和设置目录图片为桌面背景并可以自动切换. 第一部分,下载图片,使 ...

  9. C#设计模式-建造者模式

    在软件系统中,有时需要创建一个复杂对象,并且这个复杂对象由其各部分子对象通过一定的步骤组合而成. 例如一个采购系统中,如果需要采购员去采购一批电脑时,在这个实际需求中,电脑就是一个复杂的对象,它是由C ...

  10. JS函数 -- 功能,语法,返回值,匿名函数,自调用匿名函数,全局变量与局部变量,arguments的使用

    “JavaScript设计得最出色的就是它的函数的实现.” -- <JavaScript语言精粹> 函数包含一组语句,它们是JS的基础模块单元,用于指定对象的行为.一般来说,所谓编程,就是 ...