翻译学长的一片论文:Long Short-Term Memory Neural Networks for Chinese Word Segmentation

传统的neural Model for Chinese Word  Segmentation

中文分词一般是基于字符的序列标签。每个字符可以被标记为集合{B, M, E, S}中的一个元素。 B - Begin, M - Middle, E-End of a multi-character segmentation(多字符分割),S 代表 Single character segmentation。

neural Model总共有三个专门(specialized)的层:

  • 字符嵌入层 (a character embedding layer)
  • 一系列传统的神经网络层(a series of classical neural network layers)
  • 标签推断层 ( tag inference layer)

c(t)∈Rd,x(t) =[c(t-2),c(t-1),c(t),c(t+1),c(t+2)]∈RH1,H1=k*d, |T|为tags size(这边假设k=5)

RNN Model

输入序列:

隐藏层update:

我们看到,h(t)与h(t-1)是有关系的。

PS:RNN实际上是无法学习长时间动力学行为的,梯度反向传播时,存在梯度爆炸(explode)消失(vanish)现象。

LSTM Model

LSTM提供一个记忆单元 CC的变化被三个门给控制:

  • 输入门input gate: i
  • 遗忘门forget gate: f
  • 输出门output gate: o

下面是gate, cell update, hidden output update的定义

PS: Wic, Wfc and Woc 是对角阵(diagonal matrices)   但是,在其他地Wic, Wfc and Woc 不是对角的的,而是额外再加个偏置bi,o,f

LSTM Architectures for Chinese Word Segmentation

LSTM-1: The LSTM-1 simply replace the hidden neurons with LSTM units

LSTM-2:在LSTM-1的基础上再堆积一层,并且下一层的h(t)直接作为上一层的输入, 不做任何变化

LSTM-3:在LSTM-1的基础上,将将局部的LSTM输出进行合并 ,将h'(t)=[h(t-m1),..,h(t),...,h(t+m2]代替原来的h(t)

LSTM-4:在LSTM-3的基础上,再堆积一层

Inference at Sentence Level

由于标签之间存在一定关系,已有的工作是定义一个概率转移矩阵A=(Aij)4*4,

  Aij:代表Tag i 转移到 Tag j的转移概率,i,j ∈ T, |T|=4

定义a sentence level score

其中,是Tag 对应的score,就是网络输出的4维向量。涉及到的参数为

θ={M, A, Wic, Wfc, Woc, Wix, Wfx, Wox, Wih, Wfh, Woh, Wcx, Wch}

 Training

Max-Margin criterion

定义Y (xi)为所有句子xi可能出现的标签集合,并且yixi对应的正确标签。

定义

其中,

现在假设我们有一批训练数据,并且建立以下的L2范数下的正则化损失函数:

用到的优化方法

  • subgradient method (Ratliff et al., 2007)
  • diagonal variant of AdaGrad (Duchi et al., 2011) 

     

 Dropout

对于神经网络中的各个层的节点,都已p的概率选择睡眠,也就是1-p的概率被激活。(或者每层采取不同的p,反正得自己去试,看看怎么样的参数最好,文中是在input lay中取p=0.2)

模型超参(hyper-parameters)设置:

长短时间记忆的中文分词 (LSTM for Chinese Word Segmentation)的更多相关文章

  1. CRF++中文分词使用指南

    http://blog.csdn.net/marising/article/details/5769653 前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下 ...

  2. ANSJ中文分词使用方法

    一.前言 之前做solr索引的时候就使用了ANSJ进行中文分词,用着挺好,然而当时没有写博客记录的习惯.最近又尝试了好几种JAVA下的中文分词库,个人感觉还是ANSJ好用,在这里简单总结之. 二.什么 ...

  3. SCWS 中文分词

    SCWS 中文分词v1.2.3 开源免费的中文分词系统,PHP分词的上乘之选! 首页 下载 演示 文档 关于 服务&支持 API/HTTP 论坛 捐赠 源码@github 文档目录 SCWS- ...

  4. ES-自然语言处理之中文分词器

    前言 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块.不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性.句法树 ...

  5. 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  6. 【中文分词】最大熵马尔可夫模型MEMM

    Xue & Shen '2003 [2]用两种序列标注模型--MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field ...

  7. 【中文分词】二阶隐马尔可夫模型2-HMM

    在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显--对于词典中的(in-vocabulary, IV)词却未能很好地 ...

  8. 【中文分词】隐马尔可夫模型HMM

    Nianwen Xue在<Chinese Word Segmentation as Character Tagging>中将中文分词视作为序列标注问题(sequence labeling ...

  9. 利用 word2vec 训练的字向量进行中文分词

    最近针对之前发表的一篇博文<Deep Learning 在中文分词和词性标注任务中的应用>中的算法做了一个实现,感觉效果还不错.本文主要是将我在程序实现过程中的一些数学细节整理出来,借此优 ...

随机推荐

  1. vue中下载excel的使用,后端链接两种情况,一个是链接,一个是文件流

    vue中下载excel使用 一.这是第一种情况,后台链接地址返回的是一个url,这个时候我只要在导出按钮上绑定exportData()这个事件方法就好了 exportData() {     this ...

  2. 20165218 《网络对抗技术》Exp7 网络欺诈防范

    Exp7 网络欺诈防范 基础问题回答 通常在什么场景下容易受到DNS spoof攻击 公共网络下或者同一局域网内: 在日常生活工作中如何防范以上两攻击方法 钓鱼网站 查验可信第三方 核对网站域名 查询 ...

  3. Python的 counter内置函数,统计文本中的单词数量

    counter是 colletions内的一个类 可以理解为一个简单的计数 import collections str1=['a','a','b','d'] m=collections.Counte ...

  4. d3d.h和d3d9.h混用的问题

    d3d.h和d3d9.h混用的时候,一大堆错误,不管怎么调整包含顺序都不对,最后看到这个网址解决的http://www.programmer-club.com.tw/ShowSameTitleN/di ...

  5. 一、Appium+python环境搭建

    一.环境准备 1.jdk1.8. (64位) 2.android-sdk_r24.3.4-windows 3.python:2.7(3.6也可以) 4.appium:1.4.13.1 5.Node.j ...

  6. 四十三、jenkins启动时报错:consider increasing the maximum size of the cache. After eviction approximately [10,239] KB of data

    jenkins启动时报错: consider increasing the maximum size of the cache. After eviction approximately [10,23 ...

  7. FTP协议的两种工作模式简单解析!

    转载自百度百科:http://baike.baidu.com/link?url=KaBZmDM4IZ2v56MyoOnpjqKr0gADv_BRbgjlscYdyvh3-zDwINOHNPSi9Jlp ...

  8. 4.2.k8s.Ingress-Nginx

    Ingress-Nginx ingress-nginx为7层代理,通过配置域名访问后端服务 ingress-nginx容器和kubernetes api交互,动态生成nginx配置 ingress服务 ...

  9. HTML CSS JS 特殊字符(转义)表

    HTML有许多特殊的字符,您对此有多少了解?平时在WEB制作中,您又有用到多少?或者说你在平时使用之时,是否也会碰到,有许多特殊字符要如何打印出来?比如说“笑脸”,比如说“版权号”.要是你用时忘记了这 ...

  10. 同时安装 Python2 & Python3 cmd下版本自由选择

    系统:win7 python2.7,python3.6同时安装,于是问题来了,python27与python36文件夹下的文件名都是python.exe 这样在cmd下,直接输入python,自动执行 ...