CRF++词性标注

2016-02-28 分类：NLP 阅读(5558) 评论(19)

训练和测试的语料都是人民日报98年标注语料，训练和测试比例是10：1，直接通过CRF++标注词性的准确率:0.933882。特征有一千多万个，训练时间比较长。机器cpu是48核，通过crf++，指定并线数量 -p为40，训练了大概七个小时才结束。

语料库、生成训练数据的python脚本、训练日志、模型、计算准确率脚本都上传到网盘，可以直接下载：戳我下载 CRF++词性标注，程序在centos6.5+python2.7下面运行通过，如果在win下或者ubuntu下可能会有异常，通常都是编码、路径规范等小问题，通过逐行debug脚本应该很容易找到问题，同时要确定crf++在自己机器本身编译没有问题，下面说一下每一步的过程。

文章目录 [展开]

生成训练和测试数据

生成训练和测试数据脚本：get_post_train_test_data.py，执行过程中会打印出来一些调试信息。

#coding=utf8

import sys

#home_dir = "D:/source/NLP/people_daily//"

home_dir = "./"

def saveDataFile(trainobj,testobj,isTest,word,handle):

if isTest:

saveTrainFile(testobj,word,handle)

else:

saveTrainFile(trainobj,word,handle)

def saveTrainFile(fiobj,word,handle):

if len(word) > 0 and word != "。" and word != "，":

fiobj.write(word + '\t' + handle + '\n')

else:

fiobj.write('\n')

def convertTag():

fiobj = open( home_dir + 'people-daily.txt','r')

trainobj = open( home_dir +'train.data','w' )

testobj = open( home_dir +'test.data','w')

arr = fiobj.readlines()

i = 0

for a in sys.stdin:

i += 1

a = a.strip('\r\n\t ')

if a=="":continue

words = a.split(" ")

test = False

if i % 10 == 0:

test = True

for word in words[1:]:

print "---->", word

word = word.strip('\t ')

if len(word) > 0:

i1 = word.find('[')

if i1 >= 0:

word = word[i1+1:]

i2 = word.find(']')

if i2 > 0:

w = word[:i2]

word_hand = word.split('/')

print "----",word

w,h = word_hand

#print w,h

if h == 'nr': #ren min

#print 'NR',w

if w.find('·') >= 0:

tmpArr = w.split('·')

for tmp in tmpArr:

saveDataFile(trainobj,testobj,test,tmp,h)

continue

saveDataFile(trainobj,testobj,test,w,h)

saveDataFile(trainobj, testobj, test,"","")

trainobj.flush()

testobj.flush()

if __name__ == '__main__':

convertTag()

执行训练和测试

设置模板为：

# Unigram

U00:%x[-2,0]

U01:%x[-1,0]

U02:%x[0,0]

U03:%x[1,0]

U04:%x[2,0]

U05:%x[-1,0]/%x[0,0]

U06:%x[0,0]/%x[1,0]

训练的时候的-p参数根据自己机器情况设置

1 2	crf_learn -f 3 -p 4 -c 4.0 template train.data model > train.rst crf_test -m model test.data > test.rst

计算准确率

通过命令：python clc_f.py test.rst 执行python脚本，clc_f.py中的具体程序：

#!/usr/bin/python

# -*- coding: utf-8 -*-

import sys

if __name__=="__main__":

try:

file = open(sys.argv[1], "r")

except:

print "result file is not specified, or open failed!"

sys.exit()

wc = 0

wc_of_test = 0

wc_of_gold = 0

wc_of_correct = 0

flag = True

for l in file:

if l=='\n': continue

_, g, r = l.strip().split()

if r != g:

flag = False

wc += 1

if flag:

wc_of_correct +=1

flag = True

print "WordCount from result:", wc

print "WordCount of correct post :", wc_of_correct

#准确率

P = wc_of_correct/float(wc)

print "准确率:%f" % (P)

实验结果

转：CRF++词性标注的更多相关文章

隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 7. 词性标注 7.1 词性标注概述什么是词性在语言学上,词性(Par-Of- ...
NLP —— 图模型（二）条件随机场（Conditional random field，CRF）
本文简单整理了以下内容: (一)马尔可夫随机场(Markov random field,无向图模型)简单回顾 (二)条件随机场(Conditional random field,CRF) 这篇写的非常 ...
Hanlp分词之CRF中文词法分析详解
这是另一套基于CRF的词法分析系统,类似感知机词法分析器,提供了完善的训练与分析接口. CRF的效果比感知机稍好一些,然而训练速度较慢,也不支持在线学习. 默认模型训练自OpenCorpus/pku9 ...
条件随机场（CRF）理论及应用
http://x-algo.cn/index.php/2016/02/15/conditional-random-field-crf-theory-and-implementation/ 条件随机场( ...
Hanlp等七种优秀的开源中文分词库推荐
Hanlp等七种优秀的开源中文分词库推荐中文分词是中文文本处理的基础步骤,也是中文人机自然语言交互的基础模块.由于中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词. 纵观整个 ...
第四期coding_group笔记_用CRF实现分词-词性标注
一.背景知识 1.1 什么是分词? NLP的基础任务分为三个部分,词法分析.句法分析和语义分析,其中词法分析中有一种方法叫Tokenization,对汉字以字为单位进行处理叫做分词. Example ...
条件随机场(CRF) - 1 - 简介（转载）
转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618222.html 首先我们先弄懂什么是"条件随机场",然后再探索其详 ...
CRF条件随机场简介
CRF(Conditional Random Field) 条件随机场是近几年自然语言处理领域常用的算法之一,常用于句法分析.命名实体识别.词性标注等.在我看来,CRF就像一个反向的隐马尔可夫模型(H ...
条件随机场CRF简介
http://blog.csdn.net/xmdxcsj/article/details/48790317 Crf模型 1. 定义一阶(只考虑y前面的一个)线性条件随机场: 相比于最大熵模型的输 ...

随机推荐

AxonFramework
AxonFramework
.NET开源了，Visual Studio开始支持 Android 和 iOS 编程并自带Android模拟器
北京时间今天凌晨的大会上,多少程序员的假想成为现实..NET 开源,集成 Clang 和 LLVM 并且自带 Android 模拟器,这意味着 Visual Studio 这个当下最好没有之一的 ID ...
Redis使用小结
Redis官方没有windows版本的,对于Windows环境的redis,有如下两个方案微软的移植版本,但只支持到3.2 下载地址 win10及以上的版本直接通过win10的liunx子系统执行 ...
IAR EWARM Checksum Technical Note
IELFTOOL Checksum - Basic actions EW targets: ARM, RH850, RX, SH, STM8 EW component: General issues ...
[Go] 反射 - reflect.ValueOf()
类型和接口由于反射是基于类型系统(type system)的,所以先简单了解一下类型系统. 首先 Golang 是一种静态类型的语言,在编译时每一个变量都有一个类型对应,例如:int, floa ...
SQL Server 2000 绿色精简版gsql适用于xp/win7/win8/win10
老的程序员肯定都用过sql2000数据库,我在2006-2010年之间,做的不少网站也都是sql2000数据库的,但是后来随着mysql的兴起,就逐渐不再使用sql数据库了.但是最近有个客户的网站要修 ...
基于设备树的TQ2440 DMA学习（4）—— client驱动
作者彭东林pengdonglin137@163.com 平台 TQ2440Linux-4.9 概述前面分析了DMA控制器驱动,下面我们调用DMAENGINE的API写一个MEM2MEM的驱动正文 ...
sql语句练习题
6.Mysql不要用top用limit 在我们使用查询语句的时候,经常要返回前几条或者中间某几行数据,这个时候怎么办呢? 查找时Mysql不能用top,反正我用不了,查了下可以用limit来替换. 比 ...
CentOS 安装 Jenkins
原文:https://www.sunjianhua.cn/archives/centos-jenkins.html 1.更换源 mv /etc/yum.repos.d/CentOS-Base.repo ...
如何让xcode自动检查内存泄露
在project-setting中找到 “Run Static Analyzer” 键,然后把值修改为“YES”.这样在编码的时候,xcode就可以自动为我们检查内存泄露了. 原图片:http://b ...

转：CRF++词性标注