http://langiner.blog.51cto.com/1989264/379166

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://langiner.blog.51cto.com/1989264/379166

条件随机场 (CRF) 分词序列谈之一
Langiner

判别式机器学习技术来解决分词问题,其中判别式机器学习技术主要代表有条件随机场,最大熵/隐马尔科夫最大熵、感知机,支撑向量机等,有关它们的相同点与不同点以后有机会在谈,今天主要谈利用随机场解决分词问题

条件随机场(Conditional Random Fields)由John Lafferty提出并应用于自然语言处理领域,主要用于序列标注问题,如分词、实体识别、词性标注(当然词性数目相对比较小的情况下)、浅层句法分析等问题。

判别式机器学习技术解决分词问题基于由字构词理念,将分词问题转化为分类问题,通过定义每个字的词位信息(每个字在词中的位置)来确定字类别的序列预测,而词位信息可以定义为下面其中任何一种
两类(词首和词中)、三类(词首、词中和词尾)、四类(词首、词中、词尾,单字词)等等,一般而言,类别越多,字的区别能力越强,分类越精确,但是分类空间越大,模型也越大,解码空间越大,导致解码速度也越慢,实际系统中,三类别(词首、词尾和词中)是一个很好的平衡。

互联网上开源的随机场项目很多,最典型和使用最多的是CRF++,里面有完整的源代码和应用实例,通过该软件,我们可以方便学习和使用。CRF++开源代码最大问题是只有Linux版,考虑到Linux环境下,跟踪调试不方便,如果在Windows下通过建立Visual C++或者Visual Studio工程,通过跟踪调试,更加有效地学习该算法,本人将自己的学习实践中,将Linux版本移植到Windows平台上,并将其开源在SourceForge平台上(CRF中文分词开源版)。

利用哪些特征业绩如何利用这些特征是机器学习算法性能关键,中文分词主要使用字的上下文知识,上下文范围可以是3字、5字和7字,同时考虑到由字构词处理长词比较弱,可以考虑引入仿词模式、成语/习语等特征,有研究表示,加入核心词典会提高词典词的分类效果,这需要权衡,如果训练语料覆盖核心词典比较全面,核心词典的构词知识往往在语料中已经包含,但是如果训练语料对于核心词覆盖不够,可以考虑加入核心词的构词知识,但是这对核心词典有比较高的要求,我们认为北大计算语言研究所发布的GKB词典可以作为核心词典使用,如果没有比较好的核心词典,这个核心词的构词知识还是不要加入为好。

本文出自 “专注自然语言技术” 博客,请务必保留此出处http://langiner.blog.51cto.com/1989264/379166

条件随机场 (CRF) 分词序列谈之一(转)的更多相关文章

  1. 条件随机场CRF(二) 前向后向算法评估标记序列概率

    条件随机场CRF(一)从随机场到线性链条件随机场 条件随机场CRF(二) 前向后向算法评估标记序列概率 条件随机场CRF(三) 模型学习与维特比算法解码 在条件随机场CRF(一)中我们总结了CRF的模 ...

  2. 条件随机场CRF(三) 模型学习与维特比算法解码

    条件随机场CRF(一)从随机场到线性链条件随机场 条件随机场CRF(二) 前向后向算法评估标记序列概率 条件随机场CRF(三) 模型学习与维特比算法解码 在CRF系列的前两篇,我们总结了CRF的模型基 ...

  3. 条件随机场(CRF) - 2 - 定义和形式(转载)

    转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618218.html 参考书本: <2012.李航.统计学习方法.pdf> 书上 ...

  4. 条件随机场(CRF) - 1 - 简介(转载)

    转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618222.html 首先我们先弄懂什么是"条件随机场",然后再探索其详 ...

  5. 条件随机场CRF(一)从随机场到线性链条件随机场

    条件随机场CRF(一)从随机场到线性链条件随机场 条件随机场CRF(二) 前向后向算法评估观察序列概率(TODO) 条件随机场CRF(三) 模型学习与维特比算法解码(TODO) 条件随机场(Condi ...

  6. 条件随机场CRF

    条件随机场(CRF)是给定一组输入随机变量X的条件下另一组输出随机变量Y的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场.实际上是定义在时序数据上的对数线性模型.条件随机场属于判别模型. ...

  7. 条件随机场(CRF) - 1 - 简介

    声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了 ...

  8. 条件随机场(CRF) - 2 - 定义和形式

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/xueyingxue001/article/details/51498968声明: 1,本篇为个人对& ...

  9. 用条件随机场CRF进行字标注中文分词(Python实现)

    http://www.tuicool.com/articles/zq2yyi   http://blog.csdn.net/u010189459/article/details/38546115 主题 ...

随机推荐

  1. 吴恩达-coursera-机器学习-week7

    十二.支持向量机(Support Vector Machines) 12.1 优化目标 12.2 大边界的直观理解 12.3 数学背后的大边界分类(选修) 12.4 核函数1 12.5 核函数2 12 ...

  2. LPC43xx SGPIO Slice 输入输出连接表

  3. fritshoogland 大神ORACLE :pga-memory-operation latch

    https://fritshoogland.wordpress.com/2017/03/01/oracle-12-2-wait-event-pga-memory-operation/#comment- ...

  4. 在ASP.NET MVC中使用Knockout实践07,自定义验证信息的位置与内容

    在前两篇中,体验了Knockout的基本验证和自定义验证.本篇自定义验证信息的显示位置与内容. 自定义验证信息的显示位置 通常,Knockout的验证信息紧跟在input后面,通过validation ...

  5. python测试开发django-19.admin后台自定义显示

    前言 django的admin后台默认显示的内容很少,只显示了表的相关信息,查看字段内容需点开详情才能查看,不是很直观. 在admin.py文件里面是可以自定义相关的展示内容的,也可以添加搜索框,快速 ...

  6. 从CRITS发展历史解读结构框架

    Michael Goffin 是MITRE公司的一名员工,在其博客中介绍了Crits 的发展历史.原文地址例如以下: CRITs: Collaborative Research Into Threat ...

  7. linux文件名称查找which,whereis,locate

    1. 文件名称查找 使用find查询时.因为磁盘查询.所以速度较慢. 所以linux下查询更常使用which, whereis, locate来查询,因为是利用数据库查询.所以速度非常快. 2. wh ...

  8. 冰血暴第一季/全集Fargo迅雷下载

    冰血暴 第一季 Fargo 1 (2014)本季看点: 该剧改编自科恩兄弟获得1996年奥斯卡提名的同名经典影片,计划总共拍摄10集,第一季将讲述一个完整的故事.由<识骨寻踪第一季>编剧诺 ...

  9. 多个so中模板单例的多次实例化

    在Android打包项目时,发现登录功能不能使用了,logcat中也没发现什么问题,最后一行一行log定位到了问题.原来是一个so文件中的构造函数被初始化二次!   这个单例是通过继承模板来实现的(暂 ...

  10. cocos2d-x 3.0rc1 编译cpp-testsproject

    1.进入cocos2d-x的build文件夹 2.打开一个cmd命令行窗体,输入 android-build.py cpp-tests 然后回车