长短时记忆网络LSTM和条件随机场crf
LSTM 原理
CRF 原理
给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型。假设输出随机变量构成马尔科夫随机场(概率无向图模型)
在标注问题应用中,简化成线性链条件随机场,对数线性判别模型,学习方法通常是最大似然估计或正则化的最大似然估计。
概率无向图模型:
无向图表示的联合概率分布。
1. 定义:
成对马尔科夫性,局部马尔科夫性,全局马尔科夫性,
上述三个性质定义等价,主要阐述,三个集合,A, B, C,其中集合A和B表示在无向图G中被结点集合C分开的任意结点集合
给定随机变量组Yc的条件下,随机变量组Ya和Yb是条件独立的。
满足三条性质就是的联合概率分布P(Y)就是联合概率无向图模型,如何求这个联合概率的分布,写成若干子联合概率乘积的形式。还好概率无向图模型能因子分解
2. 因子分解
团:任意两个节点均有边连接的结点子集。
最大团:不能再加进任何一个新的结点使其成为更大的团。
因子分解:表示将概率无向图上的联合概率分布表示为其最大团上的随机变量的函数的乘积形式
P(Y)可以写成图中所有最大团C上的函数Ψc(Yc)的乘积形式,Z是规范化因子

势函数要求是严格正的,通常是指数函数

3. 条件随机场的定义:输入序列来预测输出序列的判别式模型
P(Y|X) X是需要标注的观测序列,Y是标记序列。利用训练集通过极大似然估计得到条件概率模型。在测试过程,对于给定的观测序列,模型需要求出条件概率最大的输出序列。

对任意结点v都成立,则P(Y|X)为条件随机场,就是做了一个假设简化了计算,只考虑相连,忽略外围其他边。
中 w≠v表示 w 是除 v 以外的所有节点,w∼v表示 w 是与 v 相连接的所有节点。
线性链条件随机场的定义:

其中当 i 取 1 或 n 时只考虑单边。
4. 线性链条件随机场的数学表达式
线性链条件随机场的参数化形式:特征函数及例子

Z(x) 作为规范化因子,是对 y 的所有可能取值求和。
tk特征函数定义在边上,称为转移特征,依赖当前和前一位置,sl特征函数定义在结点上,称为状态特征,依赖当前位置。两者取值0或1,当特征条件满足为1,不满足为0,条件随机场完全有特征函数tk,sl和对应权重确定。
tk和sl相当于给定的特征模板,给定y可以计算出该标记序列的条件概率。
以序列标注为例:

序列标注 vs 分类
序列标注不是简单的分类,这两类问题存在非常大的区别
lstm处理特征fc到类别数后直接softmax效果没有crf好,因为为每一个待标注的位置都当作一个样本然后进行分类,这样单点的分类,将会有很大的信息损失,因为一个序列的不同位置之间存在联系,应该对这个相关性建模。
条件随机场的简化形式:
这种双重求和就表明了对于同一个特征(k),在各个位置(i)上都有定义。将某一特征模板在所有位置上求和的做法相当于在将局部特征转化为全局特征函数,从而可以写成内积形式。

矩阵形式:
这种形式依托于线性链条件随机场对应的图模型仅在两个相邻节点之间存在边。在状态序列的两侧添加两个新的状态 y0=start 、yn+1=stop。

未完待续
线性链条件随机场的解码问题
解码问题即预测问题,给定条件随机场 P(Y|X) 和观测序列 x ,求最有可能的状态序列 y* 。与 HMM 类似,使用维特比算法求解。
线性链条件随机场的学习问题

对权重w求导
长短时记忆网络LSTM和条件随机场crf的更多相关文章
- (转)零基础入门深度学习(6) - 长短时记忆网络(LSTM)
无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的技术,会不会感觉马上就o ...
- 长短时记忆网络(LSTM)
长短时记忆网络 循环神经网络很难训练的原因导致它的实际应用中很处理长距离的依赖.本文将介绍改进后的循环神经网络:长短时记忆网络(Long Short Term Memory Network, LSTM ...
- 零基础入门深度学习(6) - 长短时记忆网络(LSTM)
代码: def forward(self, x): ''' 根据式1-式6进行前向计算 ''' self.times += 1 # 遗忘门 fg = self.calc_gate(x, self.Wf ...
- 机器学习与Tensorflow(5)——循环神经网络、长短时记忆网络
1.循环神经网络的标准模型 前馈神经网络能够用来建立数据之间的映射关系,但是不能用来分析过去信号的时间依赖关系,而且要求输入样本的长度固定 循环神经网络是一种在前馈神经网络中增加了分亏链接的神经网络, ...
- LSTM——长短时记忆网络
LSTM(Long Short-term Memory),长短时记忆网络是1997年Hochreiter和Schmidhuber为了解决预测位置与相关信息之间的间隔增大或者复杂语言场景中,有用信息间隔 ...
- RNN学习笔记(一):长短时记忆网络(LSTM)
一.前言 在图像处理领域,卷积神经网络(Convolution Nerual Network,CNN)凭借其强大的性能取得了广泛的应用.作为一种前馈网络,CNN中各输入之间是相互独立的,每层神经元的信 ...
- 条件随机场(CRF) - 1 - 简介(转载)
转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618222.html 首先我们先弄懂什么是"条件随机场",然后再探索其详 ...
- 条件随机场(CRF) - 1 - 简介
声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了 ...
- 条件随机场(CRF) - 2 - 定义和形式(转载)
转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618218.html 参考书本: <2012.李航.统计学习方法.pdf> 书上 ...
随机推荐
- Python3学习笔记34-pymongo模块
pymongo模块是python操作mongo数据的第三方模块,记录一下自己常用到的简单用法. 首先需要连接数据库: MongoClient():该方法第一个参数是数据库所在地址,第二个参数是数据库所 ...
- Bootstrap3.0入门学习系列教程
可视化布局:http://www.runoob.com/try/bootstrap/layoutit/ 1.浏览器兼容性:你可以去看看大牛的一篇文章http://www.cnblogs.com/lhb ...
- ifconfig相关参数及用法说明
一.ifconfig ifconfig 主要是可以手动启动.观察与修改网络接口的相关参数,可以修改的参数很多,包括 IP 参数以及 MTU 等都可以修改,它的语法如下: [root@linux ~]# ...
- 转-C语言中.h和.c文件解析
C语言中.h和.c文件解析(很精彩) 简单的说其实要理解C文件与头文件(即.h)有什么不同之处,首先需要弄明白编译器的工作过程,一般说来编译器会做以下几个过程: 1.预处理阶段 2.词 ...
- Centos 安装 Nginx 详细过程
系统 Centos 64位 第一步,首先下载Nginx的tar包及安装依赖的工具tar包. Nginx: http://nginx.org/en/download.html Nginx需要依赖下面3个 ...
- linux /proc目录
1. /proc目录Linux 内核提供了一种通过 /proc 文件系统,在运行时访问内核内部数据结构.改变内核设置的机制.proc文件系统是一个伪文件系统,它只存在内存当中,而不占用外存空间.它以文 ...
- 二、消息队列之如何在C#中使用RabbitMQ
1.什么是RabbitMQ.详见 http://www.rabbitmq.com/. 作用就是提高系统的并发性,将一些不需要及时响应客户端且占用较多资源的操作,放入队列,再由另外一个线程,去异步处理这 ...
- 解决:Gitlab的developer角色的人没有push权限无法提交(转)
问题 几位同事合作搞一些东西,打算在Gitlab上建一个仓库,然后协同开发.建好仓库后,将其他几位同事添加进来,角色分配为Developer. 之后提交初始代码到master分支后,他们用source ...
- Selenium+Java自动化之如何优雅绕过验证码
前言: 验证码问题对于每个ui自动化的同学而言,相信都是个蛋疼的问题,对于验证码的处理我个人不提倡破解,不要去想破解方法,这个验证码本来就是为了防止别人自动化登录的.如果你们公司的验证码很容易被你破解 ...
- Django 自定义模型管理器类2个应用场景
class BookManager(models.Manager): # 改变查询集的结果集 def all(self): books = super().all() # QuerySet books ...