CoreNLP是由斯坦福大学开源的一套Java NLP工具，提供诸如：词性标注（part-of-speech (POS) tagger）、命名实体识别（named entity recognizer (NER)）、情感分析（sentiment analysis）等功能。

【开源中文分词工具探析】系列：

1. 前言

CoreNLP的中文分词基于CRF模型：

\[P_w(y|x) = \frac{exp \left( \sum_i w_i f_i(x,y) \right)}{Z_w(x)}
\]

其中，\(Z_w(x)\)为归一化因子，\(w\)为模型的参数，\(f_i(x,y)\)为特征函数。

2. 分解

以下源码分析基于3.7.0版本，分词示例见SegDemo类。

模型

主要模型文件有两份，一份为词典文件dict-chris6.ser.gz：

// dict-chris6.ser.gz 对应于长度为7的Set数组词典

// 共计词数：0+7323+125336+142252+82139+26907+39243

ChineseDictionary::loadDictionary(String serializePath) {

    Set<String>[] dict = new HashSet[MAX_LEXICON_LENGTH + 1];

    for (int i = 0; i <= MAX_LEXICON_LENGTH; i++) {

        dict[i] = Generics.newHashSet();

    }

    dict = IOUtils.readObjectFromURLOrClasspathOrFileSystem(serializePath);

    return dict;

}

词典的索引值为词的长度，比如第0个词典中没有词，第1个词典为长度为1的词，第6个词典为长度为6的词。其中，第6个词典为半成词，比如，有词“《双峰》（电”、“８０年国家领”、“１８２４年英”。

另一份为CRF训练模型文件ctb.gz：

CRFClassifier::loadClassifier(ObjectInputStream ois, Properties props) {

    Object o = ois.readObject();

    if (o instanceof List) {

        labelIndices = (List<Index<CRFLabel>>) o; // label索引

    }

    classIndex = (Index<String>) ois.readObject(); // 序列标注label

    featureIndex = (Index<String>) ois.readObject(); // 特征

    flags = (SeqClassifierFlags) ois.readObject(); // 模型配置

    Object featureFactory = ois.readObject(); // 特征模板，用于生成特征

    else if (featureFactory instanceof FeatureFactory) {

        featureFactories = Generics.newArrayList();

        featureFactories.add((FeatureFactory<IN>) featureFactory);

    }

    windowSize = ois.readInt(); // 窗口大小为2

    weights = (double[][]) ois.readObject(); // 特征+label 对应的权重

    Set<String> lcWords = (Set<String>) ois.readObject(); // Set为空

	else {

        knownLCWords = new MaxSizeConcurrentHashSet<>(lcWords);

    }

    reinit();

}

不同于其他分词器采用B、M、E、S四种label来做分词，CoreNLP的中文分词label只有两种，“1”表示当前字符与前一字符连接成词，“0”则表示当前字符为另一词的开始——换言之前一字符为上一个词的结尾。

class CRFClassifier {

    classIndex: class edu.stanford.nlp.util.HashIndex

      ["1","0"]

}

// 中文分词label对应的类

public static class AnswerAnnotation implements CoreAnnotation<String>{}

特征

CoreNLP的特征如下（示例）：

class CRFClassifier {

	// 特征

    featureIndex: class edu.stanford.nlp.util.HashIndex

		size = 3408491

        0=的膀cc2|C

        1=身也pc|C

        44=LSSLp2spscsc2s|C

        45=科背p2p|C

        46=迪。cc2|C

      	...

      	=球-行pc2|CnC

		=音非cc2|CpC

    // 权重

    weights: double[3408491][2]

		[[2.2114868426005005E-5, -2.2114868091546352E-5]...]

}

特征后缀只有3类：C, CpC, CnC，分别代表了三大类特征；均由特征模板生成：

// 特征模板List

featureFactories: ArrayList<FeatureFactory>

    0 = Gale2007ChineseSegmenterFeatureFactory

// 具体特征模板

Gale2007ChineseSegmenterFeatureFactory::getCliqueFeatures() {

    if (clique == cliqueC) {

        addAllInterningAndSuffixing(features, featuresC(cInfo, loc), "C");

    } else if (clique == cliqueCpC) {

        addAllInterningAndSuffixing(features, featuresCpC(cInfo, loc), "CpC");

        addAllInterningAndSuffixing(features, featuresCnC(cInfo, loc - 1), "CnC");

    }

}

特征模板只用到了两个特征簇cliqueC与cliqueCpC，其中，cliqueC由函数featuresC()实现，cliqueCpC由函数featuresCpC()与featuresCnC()



Gale2007ChineseSegmenterFeatureFactory::featuresC() {

    if (flags.useWord1) {

        // Unigram 特征

        features.add(charc +"::c"); // c[0]

        features.add(charc2+"::c2"); // c[1]

        features.add(charp +"::p"); // c[-1]

        features.add(charp2 +"::p2"); // c[-2]

        // Bigram 特征

        features.add(charc +charc2  +"::cn"); // c[0]c[1]

        features.add(charc +charc3  +"::cn2"); // c[0]c[2]

        features.add(charp +charc  +"::pc"); // c[-1]c[0]

        features.add(charp +charc2  +"::pn"); // c[-1]c[1]

        features.add(charp2 +charp  +"::p2p"); // c[-2]c[-1]

        features.add(charp2 +charc  +"::p2c"); // c[-2]c[0]

        features.add(charc2 +charc  +"::n2c"); // c[1]c[0]

    }

    // 三个字符c[-1]c[0]c[1]对应的LBeginAnnotation、LMiddleAnnotation、LEndAnnotation 三种label特征

    // 结果特征分别以6种形式结尾，"-lb", "-lm", "-le", "-plb", "-plm", "-ple", "-c2lb", "-c2lm", "-c2le"

    // null || ".../models/segmenter/chinese/dict-chris6.ser.gz"

    if (flags.dictionary != null || flags.serializedDictionary != null) {

        dictionaryFeaturesC(CoreAnnotations.LBeginAnnotation.class,

                CoreAnnotations.LMiddleAnnotation.class,

                CoreAnnotations.LEndAnnotation.class,

                "", features, p, c, c2);

    }

    // 特征 c[1]c[0], c[1]

    if (flags.useFeaturesC4gram || flags.useFeaturesC5gram || flags.useFeaturesC6gram) {

        features.add(charp2 + charp + "p2p");

        features.add(charp2 + "p2");

    }

    // Unicode特征

    if (flags.useUnicodeType || flags.useUnicodeType4gram || flags.useUnicodeType5gram) {

        features.add(uTypep + "-" + uTypec + "-" + uTypec2 + "-uType3");

    }

    // UnicodeType特征

    if (flags.useUnicodeType4gram || flags.useUnicodeType5gram) {

        features.add(uTypep2 + "-" + uTypep + "-" + uTypec + "-" + uTypec2 + "-uType4");

    }

    // UnicodeBlock特征

    if (flags.useUnicodeBlock) {

        features.add(p.getString(CoreAnnotations.UBlockAnnotation.class) + "-"

                + c.getString(CoreAnnotations.UBlockAnnotation.class) + "-"

                + c2.getString(CoreAnnotations.UBlockAnnotation.class)

                + "-uBlock");

    }

    // Shape特征

    if (flags.useShapeStrings) {

        if (flags.useShapeStrings1) {

            features.add(p.getString(CoreAnnotations.ShapeAnnotation.class) + "ps");

            features.add(c.getString(CoreAnnotations.ShapeAnnotation.class) + "cs");

            features.add(c2.getString(CoreAnnotations.ShapeAnnotation.class) + "c2s");

        }

        if (flags.useShapeStrings3) {

            features.add(p.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + "pscsc2s");

        }

        if (flags.useShapeStrings4) {

            features.add(p2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + p.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + "p2spscsc2s");

        }

        if (flags.useShapeStrings5) {

            features.add(p2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + p.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c3.getString(CoreAnnotations.ShapeAnnotation.class)

                    + "p2spscsc2sc3s");

        }

    }

}

Gale2007ChineseSegmenterFeatureFactory::featuresCpC() {}

Gale2007ChineseSegmenterFeatureFactory::featuresCnC() {}

三大类特征分别以“|C”为结尾（共计有32个）、以“|CpC”结尾（共计有37个）、以“|CnC”结尾（共计有9个）；总计78个特征。个人感觉CoreNLP定义的特征过于复杂，大部分特征并没有什么用。CoreNLP后面处理流程跟其他分词器别无二样了，求每个label的权重加权之和，Viterbi解码求解最大概率路径，解析label序列得到分词结果。

CoreNLP分词速度巨慢，效果也一般，在PKU、MSR测试集上的表现如下：

测试集	分词器	准确率	召回率	F1
PKU	thulac4j	0.948	0.936	0.942
	CoreNLP	0.901	0.894	0.897
MSR	thulac4j	0.866	0.896	0.881
	CoreNLP	0.822	0.859	0.840

3.参考资料

[1] Huihsin, Tseng, et al. "A conditional random field word segmenter." Fourth SIGHAN Workshop. 2005.

[2] Chang, Pi-Chuan, Michel Galley, and Christopher D. Manning. "Optimizing Chinese word segmentation for machine translation performance." Proceedings of the third workshop on statistical machine translation. Association for Computational Linguistics, 2008.

开源中文分词工具探析（五）：Stanford CoreNLP的更多相关文章

开源中文分词工具探析（五）：FNLP
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一) ...
开源中文分词工具探析（六）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
开源中文分词工具探析（三）：Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高 ...
开源中文分词工具探析（四）：THULAC
THULAC是一款相当不错的中文分词工具,准确率高.分词速度蛮快的:并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等. 1. 前言 THU ...
开源中文分词工具探析（七）：LTP
LTP是哈工大开源的一套中文语言处理系统,涵盖了基本功能:分词.词性标注.命名实体识别.依存句法分析.语义角色标注.语义依存分析等. [开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICT ...
中文分词工具探析（二）：Jieba
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...
中文分词工具探析（一）：ICTCLAS (NLPIR)
1. 前言 ICTCLAS是张华平在2000年推出的中文分词系统,于2009年更名为NLPIR.ICTCLAS是中文分词界元老级工具了,作者开放出了free版本的源代码(1.0整理版本在此). 作者在 ...
基于开源中文分词工具pkuseg-python，我用张小龙的3万字演讲做了测试
做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它 ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

随机推荐

10 - JavaSE之网络编程
网络编程网络通信协议分层思想为什么要分层呢?因为整个网络协议非常复杂,要涉及到方方面面的知识,而且还有对底层硬件的操作,利用分层的思想,我们可以将复杂的通信协议分割成一层层的形式,上一层可以调用下 ...
Redis 学习开发笔记
Redis特点: 1.速度快 2.支持丰富的数据类型:字符串.哈希列表.集合 3.操作具有原子性,所有Redis操作都是原子操作 4.多实用工具,可应用如缓存,消息队列,应用程序中任何短期数据,如we ...
ProjectEuler 做题记录
退役选手打发时间的PE计划挂在这里主要是dalao们看到有什么想交流的东西可以私聊哦(站内信或邮箱吧)~~当然现在高三也不怎么能上网. 2017/8/11 595 :第一题QAQ 2017/8/1 ...
GDOI2016游记
翘课真好……(下午返校gg…… 为了GDOI,我特地准备了一堆模板,然后,由于在考前不久发现一个挺好玩的手游……模板就这么被放在一边(只翻了几次…… Day 0 同样是坐动车,到广州后转大巴到四会市, ...
HDU 2502 月之数(二进制，规律)
月之数 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submis ...
JqGrid 多行表头设置
1.我想要统计的效果是这样的 2.只要在初始化表格中加上如下代码就可以了: jQuery("#tbAbroadStatisticByUnit").jqGrid('setGroupH ...
遍历Map集合：java.util.Map.Entry、KeySet两种方式
遍历Map集合的两种方式: 1.用KeySet Map.keySet(),返回一个存放所有key的set集合,通过遍历集合,根据key值取出所有的value值. Map<String,Strin ...
KEIL MDK 查看代码量、RAM使用情况--RO-data、RW-data、ZI-data
KEIL RVMDK编译后的信息 Code是代码占用的空间, RO-data是 Read Only 只读常量的大小,如const型, RW-data是(Read Write) 初始化了的可读写变量的大 ...
CSS3 background-size 属性
定义和用法 background-size 属性规定背景图像的尺寸. 默认值: auto 继承性: no 版本: CSS3 JavaScript 语法: object.style.background ...
Vuejs技术栈知识点小结
前言上家公司的项目主要是使用jQuery和Angular1,然后自己学了React,没想到来到这家公司突然开始做vue,不过vue还是挺容易上手的.下面是vue技术栈的一些总结,都是来自官网,主要是 ...

开源中文分词工具探析（五）：Stanford CoreNLP

1. 前言

2. 分解

模型

特征

3.参考资料

开源中文分词工具探析（五）：Stanford CoreNLP的更多相关文章

随机推荐

热门专题