最近碰到一个分词匹配需求——给定一个关键词表，作为自定义分词词典，用户query文本分词后，是否有词落入这个自定义词典中？现有的大多数Java系的分词方案基本都支持添加自定义词典，但是却不支持HDFS路径的。因此，我需要寻找一种简单高效的分词方案，稍作包装即可支持HDFS。MMSeg分词算法正是完美地契合了这种需求。

1. MMseg简介

MMSeg是蔡志浩（Chih-Hao Tsai）提出的基于字符串匹配（亦称基于词典）的中文分词算法。基于词典的分词方案无法解决歧义问题，比如，“武汉市长江大桥”是应分词“武汉/市长/江大桥”还是“武汉市/长江/大桥”。基于此，有人提出了正向最大匹配策略，但是可能会出现分词错误的情况，比如：若词典中有“武汉市长”，则原句被分词成“武汉市长/江大桥”。单纯的最大匹配还是无法完美地解决歧义，因而MMSeg在正向最大匹配的基础上设计了四个启发式规则。isnowfy大神的《浅谈中文分词》对于各种主流的分词算法做了精辟的论述。

MMSeg的字符串匹配算法分为两种：

Simple，简单的正向最大匹配，即按能匹配上的最长词做切分；
Complex，在正向最大匹配的基础上，考虑相邻词的词长，设计了四个去歧义规则（Ambiguity Resolution Rules）指导分词。

在complex分词算法中，MMSeg将切分的相邻三个词作为词块（chunk），应用如下四个消歧义规则：

备选词块的长度最大（Maximum matching），即三个词的词长之和最大；
备选词块的平均词长最大（Largest average word length），即要求词长分布尽可能均匀；
备选词块的词长变化最小（Smallest variance of word lengths ）；
备选词块中（若有）单字的出现词自由度最高（Largest sum of degree of morphemic freedom of one-character words）。

这篇文章《mmseg分词算法及实现》对于这四个规则做了更为细致的介绍，本文无再赘言了。

2. 实战

MMSeg的Java实现有mmseg4j，本地路径添加自定义词典分词：

String txt = "在一起并发生了中文分词.";

// user-defined dictionary parent-path

Dictionary dic = Dictionary.getInstance("src\\resources\\dict");

Seg seg = new ComplexSeg(dic);

MMSeg mmSeg = new MMSeg(new StringReader(txt), seg);

Word word = null;

while ((word = mmSeg.next()) != null) {

  System.out.print(word + "|");

}

mmseg4j（"com.chenlb.mmseg4j" % "mmseg4j-core" % "1.10.0"）没有wiki，通过分析源码才知道getInstance方法的路径参数应是父目录，并且词典文件的命名应符合规范：chars.dic（单字词表）、wordsXXX.dic（词长>1词表）。mmseg4j所加载的分词词典为类Dictionary数据成员Map<Character, CharNode> dict，其中Character为词的首字，CharNode是一棵trie树，存储拥有共同前缀（首字）的词。loadWord方法为加载自定义词表。

基于上面的代码分析，封装添加HDFS路径词典的Scala代码如下：

import com.chenlb.mmseg4j.CharNode

import org.apache.hadoop.conf.Configuration

import org.apache.hadoop.fs.{FSDataInputStream, FileSystem, Path}

import scala.io.Source

/**

  * @author rain

  */

object MMSegUtil {

  // str[1:-1], the last len(str)-1 characters

  def tail(str: String): Array[Char] = {

    str.toCharArray.takeRight(str.length - 1)

  }

  // load user-define word dictionary

  def loadWord(path: String, dic: java.util.Map[Character, CharNode]) = {

    val fs = FileSystem.get(new Configuration)

    val in: FSDataInputStream = fs.open(new Path(path))

    Source.fromInputStream(in).getLines()

      .filter(_.length > 1)

      .foreach { line =>

        val cn: CharNode = dic.get(line.charAt(0))

        cn match {

          case null => dic.put(line.charAt(0), cn)

          case _ => cn.addWordTail(tail(line))

        }

      }

  }

}

即可在Spark程序中调用分词：

val dictionary = Dictionary.getInstance()

MMSegUtil.loadWord(dicPath, dictionary.getDict)

val seg = new ComplexSeg(dictionary)

值得指出，ComplexSeg类有List remove操作，因而不适于做成广播变量，不然则报ConcurrentModificationException。推荐的做法，配合RDD的mapPartitions在for yield外层new ComplexSeg；相当于每个Partition都有一个ComplexSeg。

mmseg4j存在分词不准确的情况，比如，『培养并发挥热忱的特性』被分词成『培养/并发/挥/热忱/的/特性』。这是因为mmseg4j的chars词典中，挥 20429的词频高于并 2789（针对于MMSeg的规则4）。基于词典的分词方案的准确性，严重依赖于词典；必须要有好的词典，才会有好的分词结果。

【中文分词】简单高效的MMSeg的更多相关文章

crf++实现中文分词简单例子（Windows crf++0.58 python3）
学习自然语言处理的同学都知道,条件随机场(crf)是个好东西.虽然它的原理确实理解起来有点困难,但是对于我们今天用到的这个crf工具crf++,用起来却是挺简单方便的. 今天只是简单试个水,参考别人的 ...
Sphinx+MySQL5.1x+SphinxSE+mmseg中文分词
什么是Sphinx Sphinx 是一个全文检索引擎,一般而言,Sphinx是一个独立的搜索引擎,意图为其它应用提供快速.低空间占用.高结果相关度的全文搜索功能.Sphinx能够很easy的与SQL数 ...
Python环境下NIPIR(ICTCLAS2014)中文分词系统使用攻略
一.安装官方链接:http://pynlpir.readthedocs.org/en/latest/installation.html 官方网页中介绍了几种安装方法,大家根据个人需要,自行参考!我采 ...
NLP舞动之中文分词浅析（一）
一.简介针对现有中文分词在垂直领域应用时,存在准确率不高的问题,本文对其进行了简要分析,对中文分词面临的分词歧义及未登录词等难点进行了介绍,最后对当前中文分词实现的算法原理(基于词表. ...
关于Solr搜索标点与符号的中文分词你必须知道的（mmseg源码改造）
关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造) 摘要:在中文搜索中的标点.符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程 ...
基于MMSeg算法的中文分词类库
原文:基于MMSeg算法的中文分词类库最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(ht ...
Mmseg中文分词算法解析
Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project.使用场景涉及搜索 ...
scws简单中文分词
demo如下: /** * 中文分词 * @param $keyword * @param $getTop * @param $limit * @return array */ function sp ...
30.IK中文分词器的安装和简单使用
在之前我们学的都是英文,用的也是英文的standard分词器.从这一节开始,学习中文分词器.中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中 ...

随机推荐

window.location事件
一.最外层top跳转页面,适合用于iframe框架集 top.window.location.href("${pageContext.request.contextPath}/Login_g ...
CSS的定位
定位的基本思想:允许你定义元素框相对于其正常位置应该出现的位置,或者相对于父元素.另一个元素甚至浏览器窗口本身的位置一切皆为框 div.h1 或 p 元素常常被称为块级元素 ...
ApexSQLLog可以只读取ldf文件
ApexSQLLog可以只读取ldf文件需要数据库在线本文版权归作者所有,未经作者同意不得转载.
Mono 3.2 测试NPinyin 中文转换拼音代码
C#中文转换为拼音NPinyin代码在Mono 3.2下运行正常,Spacebuilder 有使用到NPinyin组件,代码兼容性没有问题. using System; using System. ...
HTML5- Canvas入门（三）
前两章我们掌握了线段.矩形和多边形的绘制方法,今天我们主要是学习如何绘制圆弧和贝塞尔曲线. 圆弧的绘制圆弧可以理解为一个圆上的某部分线段,在canvas中,绘制一条圆弧的语法如下: ctx.arc( ...
剑指Offer面试题：28.连续子数组的最大和
一.题目:连续子数组的最大和题目:输入一个整型数组,数组里有正数也有负数.数组中一个或连续的多个整数组成一个子数组.求所有子数组的和的最大值.要求时间复杂度为O(n).例如输入的数组为{1,-2,3 ...
未找到与约束 ContractName Microsoft.VisualStudio.Text.ITextBufferFactoryService RequiredTypeIdentity Microsoft.VisualStudio.Text.ITextBufferFactoryService
问题:vs2013在装了之后,重启,打开VS提示: 未找到与约束 ContractName Microsoft.VisualStudio.Text.ITextBufferFactoryService ...
MVVM架构~目录
回到占占推荐博客索引 MVVM在概念上是真正将页面与数据逻辑分离的模式,在开发方式上,它是真正将前台代码开发者(JS+HTML)与后台代码开发者分离的模式(asp,asp.net,php,jsp).在 ...
AngularJS 源码分析2
上一篇地址本文主要分析RootScopeProvider和ParseProvider RootScopeProvider简介今天这个rootscope可是angularjs里面比较活跃的一个pro ...
iOS-Runtime在开发中的使用及相关面试题
OC语言中最为强大的莫过于OC的运行时机制-Runtime,但因其比较接近底层,一旦使用Runtime出现bug,将很难调试,所以Runtime在开发中能不用就不用.下面我将介绍一些Runtime在开 ...

【中文分词】简单高效的MMSeg

1. MMseg简介

2. 实战

【中文分词】简单高效的MMSeg的更多相关文章

随机推荐

热门专题