学习自然语言处理的同学都知道，条件随机场（crf）是个好东西。虽然它的原理确实理解起来有点困难，但是对于我们今天用到的这个crf工具crf++，用起来却是挺简单方便的。

今天只是简单试个水，参考别人的博文进行了个简单的中文分词，如有错误之处，欢迎指出。

在正式开工之前，我先介绍下条件随机场以及crf++的安装

第一部分介绍

首先介绍下啥是条件随机场，条件随机场（CRF）是给定一组输入随机变量条件下，另一组输出随机变量的条件概率分布模型。

以一组词性标注为例，给定输入X={我，喜欢，雷峰塔}，那么输出为Y={名词，动词，名词}的概率应该为最大。输入序列X又称为观测序列，输出序列Y又称为状态序列。这个状态序列构成马尔可夫随机场，所以根据观测序列，得出状态序列的概率就包括，前一个状态转化为后一状态的概率和状态变量到观测变量的概率。

回到咱们的主题中文分词，采取4-tag标注（S表示单字，B表示词首，M表示词中，E表示词尾）的话，可以为X={我喜欢雷峰塔}，Y={我/S喜/B欢/E雷/B峰/M塔/E}。

而crf++是个独立工具，官网的下载地址似乎进不去，可以找找其他地方的资源。

windows版本的就下载解压就行了，Linux版本的可以参照其他博文。

训练和测试的数据下载地址，这个数据集应该是人民日报的文本。

第二部分训练

准备好工具和数据后，就可以开工了。

首先，使用python将文本数据弄成crf++能处理的格式。

def character_tagging(input_file,output_file):

    input_data = codecs.open(input_file,'r','utf-8')

    output_data = codecs.open(output_file,'w','utf-8')

    for line in input_data.readlines():

        word_list = line.strip().split()

        for word in word_list:

            if len(word)==1:

                output_data.write(word+'\tS\n')

            else:

                output_data.write(word[0]+'\tB\n')

                for w in word[1:len(word)-1]:

                    output_data.write(w+'\tM\n')

                output_data.write(word[len(word)-1]+'\tE\n')

        output_data.write('\n')

    input_data.close()

    output_data.close()

调用character_tagging函数将下载的文本数据放进去，这些文本是已经做了分词的。源文本类似于这样：

据新华社北京１２月３１日电（记者罗玉文）中央军委委员、总政治部主任于永波日前在会见全军和武警部队先进典型代表时强调，全军要认真贯彻落实江泽民主席最近的重要指示精神，形成学习邓小平理论的新高潮，把这一学习提高到十五大所达到的新水平，进一步加强军队的革命化、现代化、正规化建设。

标记后，文本类似于这样：

据  S
新  B
华  M
社  E
北  B
京  E
１  B
２  M
月  E
３  B
１  M
日  E
电  S

标记后的文本数据即可用来训练了，将crf++文件夹下的crf_learn.exe、crf_test.exe、libcrfpp.dll以及example目录里seg下的template文件粘到刚刚标记好的文件所在目录下，然后在该目录下进入cmd，输入crf_learn -f 3 -c 4.0 template pku_training_tag.utf8 crf_model。

运行结果如下

该目录下生成一个crf_model的模型文件，通过该模型可以对文本进行分词了。

第三部分测试

依然是使用python进行文本数据的处理，将待分词文本处理成一列，进入cmd，输入crf_test -m crf_module data.utf8 > outfile，将生成分词结果，当然格式依然是4-tag格式，利用python转换成好看一点的格式。

def crf_convert(input_file,output_file):

    out = codecs.open(output_file, 'w', 'utf-8')

    inf = codecs.open(input_file, 'r', 'utf-8')

    for line in inf.readlines():

        if len(line) > 3:

            if line[-3] == 'S' or line[-3] == 'E':

                out.write(line[0] + '  ')

            if line[-3] == 'B' or line[-3] == 'M':

                out.write(line[0])

    out.close()

    inf.close()

这样，文本就做好分词了。

分词结果

感觉和人工分词效果已经差不多了，这是训练的数据比较多的时候才产生的效果，试过训练时给少量数据，然后产生了下面的分词效果

可以看出，训练数据过少会导致模型效果很不佳。

同时，训练出来的模型对实体命名似乎不太友好，比如罗玉文这个人名，分词模型并没有分对，给分成了 罗/S 玉/B文/E ，这个有待改进。

crf++实现中文分词简单例子（Windows crf++0.58 python3）的更多相关文章

基于CRF的中文分词
http://biancheng.dnbcw.info/java/341268.html CRF简介 Conditional Random Field:条件随机场,一种机器学习技术(模型) CRF由J ...
【中文分词】条件随机场CRF
之前介绍的MMEM存在着label bias问题,因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW:比较有意思的是,这篇文章的二 ...
CRF++进行中文分词实例
工具包:https://taku910.github.io/crfpp/#tips 语料:http://sighan.cs.uchicago.edu/bakeoff2005/ 安装: 1)下载linu ...
（转）全文检索技术学习(三)——Lucene支持中文分词
http://blog.csdn.net/yerenyuan_pku/article/details/72591778 分析器(Analyzer)的执行过程如下图是语汇单元的生成过程: 从一个Re ...
（五）Lucene——中文分词器
1. 什么是中文分词器对于英文,是安装空格.标点符号进行分词对于中文,应该安装具体的词来分,中文分词就是将词,切分成一个个有意义的词. 比如:“我的中国人”,分词:我.的.中国.中国人.国人. 2 ...
NLP舞动之中文分词浅析（一）
一.简介针对现有中文分词在垂直领域应用时,存在准确率不高的问题,本文对其进行了简要分析,对中文分词面临的分词歧义及未登录词等难点进行了介绍,最后对当前中文分词实现的算法原理(基于词表. ...
Python环境下NIPIR(ICTCLAS2014)中文分词系统使用攻略
一.安装官方链接:http://pynlpir.readthedocs.org/en/latest/installation.html 官方网页中介绍了几种安装方法,大家根据个人需要,自行参考!我采 ...
轻量级的中文分词工具包 - IK Analyzer
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本.最初,它是以开源项目Luence为应用 ...
Elasticsearch安装ik中文分词插件（四）
一.IK简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本.最初,它是以开源项目Lu ...

随机推荐

解决tomcat同时部署两个SpringBoot应用提示InstanceAlreadyExistsException
问题描述:Caused by: javax.management.InstanceAlreadyExistsException: com.alibaba.druid.pool:name=primary ...
Netty 服务端启动过程
在 Netty 中创建 1 个 NioServerSocketChannel 在指定的端口监听客户端连接,这个过程主要有以下个步骤: 创建 NioServerSocketChannel 初始化并注 ...
【EMV L2】GPO响应以及AIP、AFL
[GPO命令] 终端通过GPO(Get Processing Options)命令通知卡片交易开始.命令数据为PDOL指定的终端数据. [GPO响应] 卡片在GPO命令的响应中返回AIP和AFL:A ...
ArcGIS中的坐标系：基本概念和常用操作（一）
本文呢是主要是借鉴李郎平李大大的博士论文和百度百科,里面还有一点点我自己的理解,希望能帮助自己加深对于坐标系的认识. 李大大的博客:http://blog.sciencenet.cn/u/Brume ...
Java基于opencv—矫正图像
更多的时候,我们得到的图像不可能是正的,多少都会有一定的倾斜,就比如下面的我们要做的就是把它们变成下面这样的我们采用的是寻找轮廓的思路,来矫正图片:只要有明显的轮廓都可以采用这种思路具体思路: ...
自适应reset.js布局用于手机端页面编写
以下是reset.js具体内容,是从淘宝网站拔下来的.把它存为js文件引入html里,它的默认尺寸是iphone4的分辨率也就是320*480,美工给你的图不管多少尺寸用ps量图后像素值(px)除以4 ...
【转】Cookie/Session机制详解
Cookie/Session机制详解会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话.常用的会话跟踪技术是Cookie与Session.Cookie通过在客户端记录信息 ...
maya模板lock工具
#lockTemple import maya.cmds as mcimport stringif mc.window('LockWin',ex=1)==1: mc.deleteUI(' ...
python八荣八耻
Python八荣八耻以动手实践为荣 , 以只看不练为耻; 以打印日志为荣 , 以单步跟踪为耻; 以空格缩进为荣 , 以制表缩进为耻; 以单元测试为荣 , 以人工测试为耻; 以模块复用为荣 , 以复制 ...
[USACO09HOL]假期绘画Holiday Painting
观察到列数只有15,可以想到对于每一列维护一颗线段树 sum表示该区间与目标矩阵中该区间相同元素个数 lazy表示该区间应被修改成什么颜色 g即目标矩阵中该区间白色格子的个数显然一个区间的sum=区 ...

crf++实现中文分词简单例子 （Windows crf++0.58 python3）

第一部分 介绍

第二部分 训练

第三部分 测试

crf++实现中文分词简单例子 （Windows crf++0.58 python3）的更多相关文章

随机推荐

热门专题

crf++实现中文分词简单例子（Windows crf++0.58 python3）

第一部分介绍

第二部分训练

第三部分测试

crf++实现中文分词简单例子（Windows crf++0.58 python3）的更多相关文章