长短时间记忆的中文分词 (LSTM for Chinese Word Segmentation)

翻译学长的一片论文:Long Short-Term Memory Neural Networks for Chinese Word Segmentation

传统的neural Model for Chinese Word Segmentation

中文分词一般是基于字符的序列标签。每个字符可以被标记为集合{B, M, E, S}中的一个元素。 B - Begin, M - Middle, E-End of a multi-character segmentation(多字符分割)，S 代表 Single character segmentation。

neural Model总共有三个专门（specialized）的层：

字符嵌入层 (a character embedding layer）
一系列传统的神经网络层（a series of classical neural network layers）
标签推断层 ( tag inference layer）

c(t)∈R^d,x(t) =[c(t-2),c(t-1),c(t),c(t+1),c(t+2)]∈R^H₁,H₁=k*d, |T|为tags size(这边假设k=5)

RNN Model

输入序列：

隐藏层update：

我们看到，h(t)与h(t-1)是有关系的。

PS：RNN实际上是无法学习长时间动力学行为的，梯度反向传播时，存在梯度爆炸（explode）或消失（vanish）现象。

LSTM Model

LSTM提供一个记忆单元 C。 C的变化被三个门给控制：

输入门input gate: i
遗忘门forget gate: f
输出门output gate: o

下面是gate， cell update， hidden output update的定义

PS: W_ic, W_fc and W_oc 是对角阵(diagonal matrices) 但是，在其他地W_ic, W_fc and W_oc 不是对角的的，而是额外再加个偏置b_i,o,f

LSTM Architectures for Chinese Word Segmentation

LSTM-1： The LSTM-1 simply replace the hidden neurons with LSTM units

LSTM-2：在LSTM-1的基础上再堆积一层，并且下一层的h(t)直接作为上一层的输入，不做任何变化

LSTM-3：在LSTM-1的基础上，将将局部的LSTM输出进行合并 ,将h'(t)=[h(t-m1),..,h(t),...,h(t+m2]代替原来的h(t)

LSTM-4:在LSTM-3的基础上，再堆积一层

Inference at Sentence Level

由于标签之间存在一定关系，已有的工作是定义一个概率转移矩阵A=(A_ij)_4*4,

　　A_ij：代表Tag i 转移到 Tag j的转移概率，i,j ∈ T, |T|=4

定义a sentence level score

其中，是Tag 对应的score，就是网络输出的4维向量。涉及到的参数为

θ={M, A, W_ic, W_fc, W_oc, W_ix, W_fx, W_ox, W_ih, W_fh, W_oh, W_cx, W_ch}

Training

Max-Margin criterion

定义Y (x_i)为所有句子x_i可能出现的标签集合，并且y_i为x_i对应的正确标签。

定义

其中，，

现在假设我们有一批训练数据，并且建立以下的L2范数下的正则化损失函数：

用到的优化方法：

subgradient method (Ratliff et al., 2007)
diagonal variant of AdaGrad (Duchi et al., 2011)

Dropout

对于神经网络中的各个层的节点，都已p的概率选择睡眠，也就是1-p的概率被激活。（或者每层采取不同的p，反正得自己去试，看看怎么样的参数最好，文中是在input lay中取p=0.2）

模型超参（hyper-parameters）设置：

长短时间记忆的中文分词 (LSTM for Chinese Word Segmentation)的更多相关文章

CRF++中文分词使用指南
http://blog.csdn.net/marising/article/details/5769653 前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下 ...
ANSJ中文分词使用方法
一.前言之前做solr索引的时候就使用了ANSJ进行中文分词,用着挺好,然而当时没有写博客记录的习惯.最近又尝试了好几种JAVA下的中文分词库,个人感觉还是ANSJ好用,在这里简单总结之. 二.什么 ...
SCWS 中文分词
SCWS 中文分词v1.2.3 开源免费的中文分词系统,PHP分词的上乘之选! 首页下载演示文档关于服务&支持 API/HTTP 论坛捐赠源码@github 文档目录 SCWS- ...
ES-自然语言处理之中文分词器
前言中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块.不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性.句法树 ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
【中文分词】最大熵马尔可夫模型MEMM
Xue & Shen '2003 [2]用两种序列标注模型--MEMM (Maximum Entropy Markov Model)与CRF (Conditional Random Field ...
【中文分词】二阶隐马尔可夫模型2-HMM
在前一篇中介绍了用HMM做中文分词,对于未登录词(out-of-vocabulary, OOV)有良好的识别效果,但是缺点也十分明显--对于词典中的(in-vocabulary, IV)词却未能很好地 ...
【中文分词】隐马尔可夫模型HMM
Nianwen Xue在<Chinese Word Segmentation as Character Tagging>中将中文分词视作为序列标注问题(sequence labeling ...
利用 word2vec 训练的字向量进行中文分词
最近针对之前发表的一篇博文<Deep Learning 在中文分词和词性标注任务中的应用>中的算法做了一个实现,感觉效果还不错.本文主要是将我在程序实现过程中的一些数学细节整理出来,借此优 ...

随机推荐

m3u8直播测试地址
调试m3u8的时候需要测试地址找了几个,备用一下安徽卫视 http://stream2.ahtv.cn/ahws/cd/live.m3u8经济生活 http://stream2.ahtv.cn/j ...
tensorflow学习——调试ctc的两个bug
InvalidArgumentError (see above for traceback): Not enough time for target transition sequence (requ ...
MySQL——执行计划
项目开发中,性能是我们比较关注的问题,特别是数据库的性能:作为一个开发,经常和SQL语句打交道,想要写出合格的SQL语句,我们需要了解SQL语句在数据库中是如何扫描表.如何使用索引的: MySQL提供 ...
异步 map 和模块打包
概述本文是我在查资料的时候学到的一些东西,记录下来,供以后开发时参考,相信对其他人也有用. 参考资料: 异步函数 - 提高 Promise 的易用性深入 CommonJs 与 ES6 Module ...
关于db4o的透明激活与激活声明
关于db4o的透明激活与激活声明有关于透明激活,其介绍可以参看这里:http://www.cnblogs.com/redmoon/archive/2008/02/23/1078619.html 文中 ...
测开之路一百五十二：基于jquery的ajax实现之load、get、ajax
ajax除了用原生的js实现之外,也可以使用jquery实现,而且用jquery更方便看一个简单的示例,保留上一篇的content路由和html,实现上一篇一样的功能,点击获取内容,局部刷新准备一 ...
gzip, deflate delphi xe 2 解码成功哈哈
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 http://bbs.csdn.net/topics/190020986 ...
教你用Python实现简单监督学习算法
教你用Python实现简单监督学习算法监督学习作为运用最广泛的机器学习方法,一直以来都是从数据挖掘信息的重要手段.即便是在无监督学习兴起的近日,监督学习也依旧是入门机器学习的钥匙. 这篇监督学习教程 ...
Application.CreateForm()和TForm.Create()创建的窗体有什么区别么？二者在使用上各有什么技巧？(50分)
https://wedelphi.com/t/135849/ 请详细些,并给出例子.谢谢. Application.CreateForm()创建的第一个可显示的窗体是自动成为主窗体,并且自动显示,并且 ...
Linux 命令 - man 查看命令的文档
man 命令是 Linux 中最常用的命令,碰到任何让你疑惑的命令,都可以 man 一下来查看详情.不只是 shell 命令,C 语言库函数和系统调用等内容也可以通过 man 命令查看. man 命令 ...

长短时间记忆的中文分词 (LSTM for Chinese Word Segmentation)

长短时间记忆的中文分词 (LSTM for Chinese Word Segmentation)的更多相关文章

随机推荐

热门专题