Usage:

1.输入输出文件

He        PRP  B-NP

reckons   VBZ  B-VP

the       DT   B-NP

current   JJ   I-NP

account   NN   I-NP

deficit   NN   I-NP

will      MD   B-VP

narrow    VB   I-VP

to        TO   B-PP

only      RB   B-NP

#         #    I-NP

1.8       CD   I-NP

billion   CD   I-NP

in        IN   B-PP

September NNP  B-NP

.         .    O

He        PRP  B-NP

reckons   VBZ  B-VP

..

由许多token组成，每一行称之为一个token，每个token包含许多列，一般第0列是词本身，最后一列是词应该输出的标记(状态)，中间的列是词的Pos，可以有多个，例如可以是词性等

输出文件与输入文件一样，只不过最后一列的可有可无，包含最后一列时可用于测试

2. feature template

2.1 模板基础和介绍

Input: Data

He        PRP  B-NP

reckons   VBZ  B-VP

the       DT   B-NP << CURRENT TOKEN

current   JJ   I-NP

account   NN   I-NP

template	expanded feature
%x[0,0]	the
%x[0,1]	DT
%x[-1,0]	reckons
%x[-2,1]	PRP
%x[0,0]/%x[0,1]	the/DT
ABC%x[0,1]123	ABCDT123

模板由 %x[row,col]指定，row表示行偏移，col表示第col列。eg，当前元素是the的话，%x[0,1]表示DT，%x[-1,0]表示reckons等

2.2 模板类型

一共有两种类型的模板，Unigram和Bigram

2.2.1 Unigram

如果一个 %x[0,1]模板(这个模板的意思就是利用当前词的第一列(词性)去预测最后一列(输出))，会产生如下函数：

func1 = if (output = B-NP and feature="U01:DT") return 1 else return 0

func2 = if (output = I-NP and feature="U01:DT") return 1 else return 0

func3 = if (output = O and feature="U01:DT") return 1  else return 0

....

funcXX = if (output = B-NP and feature="U01:NN") return 1  else return 0

funcXY = if (output = O and feature="U01:NN") return 1  else return 0

...

当前词的U01特征是DT，当前词的输出是B-NP

当前词的U01特征是DT，当前词的输出是I-NP

当前词的U01特征是DT，当前词的输出是O

当前词的U01特征是NN，当前词的输出是B-NP

当前词的U01特征是NN，当前词的输出是O

一共有 L*N个特征函数，L是输出的类别墅，N是expanded feature的数目

2.2.2 Bigram

会自动产生当前特征和前一个特征的合并，一共会有L*L*N个特征函数

2.2.3 区别两个unigram与bigram

unigram: |output tag| x |all possible strings expanded with a macro|
bigram: |output tag| x |output tag| x |all possible strings expanded with a macro|

模板示例

　# Unigram

U00:%x[-2,0]

U01:%x[-1,0]

U02:%x[0,0]

U03:%x[1,0]

U04:%x[2,0]

U05:%x[-1,0]/%x[0,0]

U06:%x[0,0]/%x[1,0]

U10:%x[-2,1]

U11:%x[-1,1]

U12:%x[0,1]

U13:%x[1,1]

U14:%x[2,1]

U15:%x[-2,1]/%x[-1,1]

U16:%x[-1,1]/%x[0,1]

U17:%x[0,1]/%x[1,1]

U18:%x[1,1]/%x[2,1]

U20:%x[-2,1]/%x[-1,1]/%x[0,1]

U21:%x[-1,1]/%x[0,1]/%x[1,1]

U22:%x[0,1]/%x[1,1]/%x[2,1]

# Bigram

B

‘#’在模板中表示注释，bigram中的B表示就只采用前一个token和当前token作为bigram特征

3 训练

3.1 命令

crf_learn template_file train_file model_file

3.2 输出

CRF++: Yet Another CRF Tool Kit

Copyright(C) 2005 Taku Kudo, All rights reserved.

reading training data: 100.. 200.. 300.. 400.. 500.. 600.. 700.. 800..

Done! 1.94 s

Number of sentences: 823

Number of features:  1075862

Number of thread(s): 1

Freq:                1

eta:                 0.00010

C:                   1.00000

shrinking size:      20

Algorithm:           CRF

iter=0 terr=0.99103 serr=1.00000 obj=54318.36623 diff=1.00000

iter=1 terr=0.35260 serr=0.98177 obj=44996.53537 diff=0.17161

iter=2 terr=0.35260 serr=0.98177 obj=21032.70195 diff=0.53257

iter=3 terr=0.23879 serr=0.94532 obj=13642.32067 diff=0.35138

iter=4 terr=0.15324 serr=0.88700 obj=8985.70071 diff=0.34134

iter=5 terr=0.11605 serr=0.80680 obj=7118.89846 diff=0.20775

iter=6 terr=0.09305 serr=0.72175 obj=5531.31015 diff=0.22301

iter=7 terr=0.08132 serr=0.68408 obj=4618.24644 diff=0.16507

iter=8 terr=0.06228 serr=0.59174 obj=3742.93171 diff=0.18953

iter: 迭代次数
terr: error rate with respect to tags. (# of error tags/# of all tag)
serr: error rate with respect to sentences. (# of error sentences/# of all sentences)
obj: current object value. When this value converges to a fixed point, CRF++ stops the iteration.
diff: relative difference from the previous object value.

3.3 参数

-a CRF-L2 or CRF-L1:
指定正则化项。默认参数是L2。一般情况，L2比L1略好，但L1正则化情况下非零的特征数目明显比L2正则化少。
-c float:
CRF中的hyper-parameter参数。C越大，CRF拟合训练数据过好，所以C是一个权衡过拟合和欠拟合的参数。训练结果受C值的影响较大。可以通过交叉验证等确定C的取值。
-f NUM:
设置参与训练的特征的阈值。仅使用出现次数不小于NUM次的特征。默认值是1。在大数据中，只出现一次的特征会有成百上千，此时这个选项就会很有用。
-p NUM:
如果电脑有多个CPU，可以多线程训练，NUM是线程数。

crf_learn -f 3 -c 1.5 template_file train_file model_file

0.45以上的版本，还有single-best MIRA training模式，通过-a MIRA 指定，参数选项与上面的类似

4 预测

crf_test -m model_file test_files ...

每一行中前面的列是预测数据中的特征和真实结果，最后一列是通过训练得到的标注结果

输出普通结果

% crf_test -m model test.data

Rockwell        NNP     B       B

International   NNP     I       I

Corp.   NNP     I       I

's      POS     B       B

Tulsa   NNP     I       I

unit    NN      I       I

..

输出真实值的概率

% crf_test -v1 -m model test.data| head

# 0.478113

Rockwell        NNP     B       B/0.992465

International   NNP     I       I/0.979089

Corp.   NNP     I       I/0.954883

's      POS     B       B/0.986396

Tulsa   NNP     I       I/0.991966

...

输出所有情况的概率

% crf_test -v2 -m model test.data

# 0.478113

Rockwell        NNP     B       B/0.992465      B/0.992465      I/0.00144946    O/0.00608594

International   NNP     I       I/0.979089      B/0.0105273     I/0.979089      O/0.0103833

Corp.   NNP     I       I/0.954883      B/0.00477976    I/0.954883      O/0.040337

's      POS     B       B/0.986396      B/0.986396      I/0.00655976    O/0.00704426

Tulsa   NNP     I       I/0.991966      B/0.00787494    I/0.991966      O/0.00015949

unit    NN      I       I/0.996169      B/0.00283111    I/0.996169      O/0.000999975

..

我

CRF++使用说明的更多相关文章

用CRF做命名实体识别(一)
用CRF做命名实体识别(二) 用CRF做命名实体识别(三) 用BILSTM-CRF做命名实体识别博客园的markdown格式可能不太方便看,也欢迎大家去我的简书里看摘要本文主要讲述了关于人民日报 ...
使用conlleval.pl对CRF测试结果进行评价的方法
基于CRF做命名实体识别系列用CRF做命名实体识别(一) 用CRF做命名实体识别(二) 用CRF做命名实体识别(三) 评测用CRF做完命名实体识别我们测试之后得到的结果就是预测的标签,并不能直接得 ...
CRF++评测脚本CoNLL 2000
关于CRF++工具如何使用这里就不再赘述了,网上相关资源很多,如官方提供的http://crfpp.googlecode.com/svn/trunk/doc/index.html.虽然http://w ...
Atitit.项目修改补丁打包工具使用说明
Atitit.项目修改补丁打包工具使用说明 1.1. 打包工具已经在群里面.打包工具.bat1 1.2. 使用方法:放在项目主目录下,执行即可1 1.3. 打包工具的原理以及要打包的项目列表1 1. ...
【NLP】基于自然语言处理角度谈谈CRF(二)
基于自然语言处理角度谈谈CRF 作者:白宁超 2016年8月2日21:25:35 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务 ...
【NLP】基于机器学习角度谈谈CRF（三）
基于机器学习角度谈谈CRF 作者:白宁超 2016年8月3日08:39:14 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务中都 ...
【NLP】基于统计学习方法角度谈谈CRF（四）
基于统计学习方法角度谈谈CRF 作者:白宁超 2016年8月2日13:59:46 [摘要]:条件随机场用于序列标注,数据分割等自然语言处理中,表现出很好的效果.在中文分词.中文人名识别和歧义消解等任务 ...
【中文分词】条件随机场CRF
之前介绍的MMEM存在着label bias问题,因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW:比较有意思的是,这篇文章的二 ...
awk使用说明
原文地址:http://www.cnblogs.com/verrion/p/awk_usage.html Awk使用说明运维必须掌握的三剑客工具:grep(文件内容过滤器),sed(数据流处理器), ...

随机推荐

转：如何从keystore file中查看数字证书信息
转: http://www.shuziqianming.com/201302/certificate-information-in-a-keystore-file/ 如何从keystore file中 ...
ini配置文件的读取
.ini 文件是Initialization File的缩写,即初始化文件.是windows的系统配置文件所采用的存储格式,统管windows的各项配置,一般用户就用windows提供的各项图形化管理 ...
Tomcat 没有自动解压webapp下的war项目文件问题
默认选择的tomcat安装在了C盘下的C:\Program Files下所以webapp文件也在C盘下选择启动tomcat时我选择了 bin下的 Tomcat.exe 显示成功启动打开项目网站 ...
小白系列-免费广告路由器web认证设置(2)
要设置认证页面图片.须要到后台注冊一个帐号,绑定路由器. 路由器管理后台网址 http://115.29.12.130/router 第一步:自己主动获取一个路由器ID(上一篇文章中的路由器ID也要改 ...
SSH框架之Struts（4）——Struts查漏补缺BeanUtils在Struts1中
在上篇博客SSH框架之Struts(3)--Struts的执行流程之核心方法,我们提到RequestProcessor中的processPopulate()是用来为为ActionForm 填充数据.它 ...
算法笔记_094:蓝桥杯练习矩阵相乘（Java）
目录 1 问题描述 2 解决方案 1 问题描述问题描述小明最近在为线性代数而头疼,线性代数确实很抽象(也很无聊),可惜他的老师正在讲这矩阵乘法这一段内容. 当然,小明上课打瞌睡也没问题,但线性 ...
百度URL參数解析
百度URL參数解析在用Python爬取百度搜索的内容时,发现百度搜索的url非常的长.往往会跟一大段的參数,但事实上非常多參数都是没有必要的,如相同是搜索javakeyword,能够通过 http: ...
用rz,sz命令在windows和linux之间传输文件（转）
转自http://www.linuxmine.com/178.html有很多人没有听说过ZModem协议,更不知道有rz/sz这样方便的工具: 下面一段是从SecureCRT的帮助中copy的: ZM ...
tar 命令详解 / xz 命令
]# tar [-cxtzjvfpPN] 文件与目录 ....参数:-c :建立一个压缩文件的参数指令(create 的意思):-x :解开一个压缩文件的参数指令!-t :查看 tarfile 里面的 ...
struts2中 jsp:forward 失败原因及解决办法
问题:在Struts2中<jsp:forward page="xxx.action"></jsp:forward>失效了,不但调转不过去还报404错误.不知 ...