开源中文分词工具探析(五):FNLP
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词、词性标注、文本分类、依存句法分析等功能。
【开源中文分词工具探析】系列:
- 开源中文分词工具探析(一):ICTCLAS (NLPIR)
- 开源中文分词工具探析(二):Jieba
- 开源中文分词工具探析(三):Ansj
- 开源中文分词工具探析(四):THULAC
- 开源中文分词工具探析(五):FNLP
- 开源中文分词工具探析(六):Stanford CoreNLP
- 开源中文分词工具探析(七):LTP
1. 前言
类似于THULAC,FNLP也是采用线性模型(linear model)分词。较于对数线性模型(log-linear model)HMM/CRF所不同的是,线性模型没有归一化因子而直接建模Score函数:
\]
则序列标注问题对应于求解:
\]
THULAC是采用感知器来学习参数\(w_s\),而FNLP则是采用在线学习算法Passive-Aggressive(PA) [2]。PA算法结合感知器与SVM的优点,学习速度快;损失函数为hinge loss:
{
\matrix {
{0,} & {\gamma (W;(X,Y)) \ 1} \cr
{1- \gamma (W;(X,Y))} & { otherwise} \cr
}
}
\right.
\]
其中,\(\gamma (W;(X,Y))\)为边际距离,定义为:
\]
\(\hat{Y}\)为错误序列标注中得分最高(score函数最大值)的标签。关于参数更新策略的细节请参看FNLP Book [3].
2. 分解
以下源码分析基于fnlp-2.1版本。
训练模型
中文分词的训练模型为seg.m,由两个类TempletGroup与Linear序列化压缩而成:
ObjectInputStream in = new ObjectInputStream(new BufferedInputStream(
new GZIPInputStream(new FileInputStream("models/seg.m"))));
TempletGroup templets = (TempletGroup) in.readObject();
Linear cl = (Linear) in.readObject();
其中,类TempletGroup定义了特征模板,Linear包含了特征模板、特征及其偏移量、权重数组:
// main field
public Inferencer inferencer;
protected AlphabetFactory factory;
// details about `factory` field
.factory: AlphabetFactory
.maps { "LABELS" -> LabelAlphabet(data: {S=0,M=2,E=3,B=1})
"FEATURES" -> StringFeatureAlphabet(data: TObjectIntCustomHashMap<String>)}
// StringFeatureAlphabet记录了feature在weights数组中的偏移
// details about `inferencer` field
.inferencer: LinearViterbi
protected float[] weights;
public TempletGroup templets;
类StringFeatureAlphabet的变量data为一个TObjectIntMap,K为特征,V为偏移量,如下所示:
0: 32
1:供/ 414540
2:O/ 14372
2:L/ 131248
3:煞/C/ 147492
5:呼/ 20032
8:哈/钦/ 419968
12:拉/杰/沙/ 350972
13:L/文/C/ 1324032
Map的size为441006,即为特征总数(感觉FNLP的训练语料太少);特征由index + 特征值组成,共有14种。至于特征模板是如何定义,且看下下一小节。
解码
中文分词对应的解码类为CWSTagger,主要的field如下:
private Linear cl; //
protected Pipe prePipe = null; // String2Sequence, 初步切分成char array形式
protected Pipe featurePipe; // Sequence2FeatureSequence, 计算特征数组
protected AlphabetFactory factory;
protected TempletGroup templets; // lis of BaseTemplet, 特征模板
protected LabelAlphabet labels; // 对应于factory.maps中的LABELS,即S,M,E,B
解码同CRF、结构化感知器SP一样为Viterbi算法,具体实现见类LinearViterbi,在此不再赘述。
特征
特征模板共定义了14个特征(对应于上面的训练模型),如下所示:
0: %y[-1]%y[0]
1: %x[0,0]%y[0]
2: %x[0,1]%y[0]
3: %x[0,0]%x[0,1]%y[0]
4: %x[-1,0]%y[0]
5: %x[1,0]%y[0]
6: %x[-2,0]%y[0]
7: %x[2,0]%y[0]
8: %x[-2,0]%x[-1,0]%y[0]
9: %x[-1,0]%x[0,0]%y[0]
10: %x[0,0]%x[1,0]%y[0]
11: %x[1,0]%x[2,0]%y[0]
12: %x[-1,0]%x[0,0]%x[1,0]%y[0]
13: %x[-1,1]%x[0,0]%x[1,1]%y[0]
特征模板格式与CRF++相类似;从上可以看出,有1个类别转移特征(index 0),5个unigram字符状态特征(index 1, 4, 5, 6, 7),4个bigram字符状态特征(index 8, 9, 10, 11),1个trigram字符状态特征(index 12),3个字符状态与类型的混合特征(index 2, 3, 13)。其中,FNLP的enum Chars.CharType定义了5种字符类型如下(与训练模型有稍许区别)。其实,字符类型特征对于分词来说比较鸡肋,可以不用。
D // 数字
L // 字母
C // 汉字
O // 其他,例如标点等
B_ // 空格
public enum CharType {
C,
L,
D,
P, // 标点
B}
我们来直观感受下FNLP的分词效果:
CWSTagger segger = new CWSTagger("models/seg.m");
segger.setEnFilter(true);
String sentence = "小明硕士毕业于中国科学院计算所,后在日本京都大学深造";
List<String> words = segger.tag2List(sentence);
// [小明, 硕士, 毕业于, 中国, 科学院, 计算, 所, ,, 后, 在, 日本, 京都, 大学, 深造]
可以看出,FNLP分词的粒度不均匀,准确性不是太高;应该是跟训练语料太少有关系,训练不充分而导致的。
3. 参考文献
[1] Qiu, Xipeng, Qi Zhang, and Xuanjing Huang. "FudanNLP: A Toolkit for Chinese Natural Language Processing." ACL (Conference System Demonstrations). 2013.
[2] Crammer, Koby, et al. "Online passive-aggressive algorithms." Journal of Machine Learning Research 7.Mar (2006): 551-585.
[3] 邱锡鹏, “自然语言处理原理与实现”, 2014.
开源中文分词工具探析(五):FNLP的更多相关文章
- 开源中文分词工具探析(五):Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
- 开源中文分词工具探析(三):Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高 ...
- 开源中文分词工具探析(四):THULAC
THULAC是一款相当不错的中文分词工具,准确率高.分词速度蛮快的:并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等. 1. 前言 THU ...
- 开源中文分词工具探析(七):LTP
LTP是哈工大开源的一套中文语言处理系统,涵盖了基本功能:分词.词性标注.命名实体识别.依存句法分析.语义角色标注.语义依存分析等. [开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICT ...
- 开源中文分词工具探析(六):Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
- 中文分词工具探析(二):Jieba
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...
- 中文分词工具探析(一):ICTCLAS (NLPIR)
1. 前言 ICTCLAS是张华平在2000年推出的中文分词系统,于2009年更名为NLPIR.ICTCLAS是中文分词界元老级工具了,作者开放出了free版本的源代码(1.0整理版本在此). 作者在 ...
- 基于开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了测试
做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它 ...
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
随机推荐
- POJ2503(hash)
Babelfish Time Limit: 3000MS Memory Limit: 65536K Total Submissions: 41263 Accepted: 17561 Descr ...
- Spring 4 MVC+Hibernate 4+MySQL+Maven使用注解集成实例
Spring 4 MVC+Hibernate 4+MySQL+Maven使用注解集成实例 转自:通过注解的方式集成Spring 4 MVC+Hibernate 4+MySQL+Maven,开发项目样例 ...
- 从0到1学习node之简易的网络爬虫
本文地址: http://www.xiabingbao.com/node/2017/01/19/node-spider.html 我们这节的目标是学习完本节课程后,能进行网页简单的分析与抓取,对抓取到 ...
- MEAN教程2-Nodejs安装
安装Node.js稳定版本最简单的办法也是使用二进制文件,Node.js官方网站上提供了下载地址,可用于Linux.Mac OS X和Windows系统.同样要注意下载与目标操作系统架构一致的文件. ...
- Linux 用键盘操作窗口
以下是我从各处搜集来的关于用键盘操作窗口信息,操作可能不是最简或者最好的,当然也可能不是最全的,以后遇到新的操作,我会即使添加,如果你有我没有列出的操作,希望你能提出,我可以加上! 我实验的操作系统是 ...
- 用Spark学习矩阵分解推荐算法
在矩阵分解在协同过滤推荐算法中的应用中,我们对矩阵分解在推荐算法中的应用原理做了总结,这里我们就从实践的角度来用Spark学习矩阵分解推荐算法. 1. Spark推荐算法概述 在Spark MLlib ...
- WPF开发进阶 - Fody/PropertyChanged(二)
前一篇 简单的介绍了Fody/PropertyChanged的使用方法, 这一篇,我们详细介绍它的一些比较重要的特性和规则 1. Attributes 通过在类或属性上标记这些特性,可以在编译代码时, ...
- C#中let字句
应用场景: 在查询表达式中,存储子表达式的结果有时很有用,这样可以在随后的子句中使用. 可以使用 let 关键字完成这一工作,该关键字可以创建一个新的范围变量,并且用您提供的表达式的结果初始化该变量. ...
- MongoDB基础之十 shared分片
水平分片实例分布图: mongodb sharding 服务器架构 1. 添加mongdb两个shared实例 # mkdir -p /home/m17 //home/m18 /home/m20 ...
- iOS8中 UITableView section 分区头部视图不显示
最近自己使用了UITableView写了一个通讯录,但是在编写过程还算顺利,但是后来测试的时候,发现在iOS8中TableView的分区头不能正常显示,使用 - (NSString *)tableVi ...