长短时记忆网络LSTM和条件随机场crf

LSTM 原理

CRF 原理

给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型。假设输出随机变量构成马尔科夫随机场(概率无向图模型)
在标注问题应用中，简化成线性链条件随机场，对数线性判别模型，学习方法通常是最大似然估计或正则化的最大似然估计。

概率无向图模型：

无向图表示的联合概率分布。

1. 定义：

成对马尔科夫性，局部马尔科夫性，全局马尔科夫性，

上述三个性质定义等价，主要阐述，三个集合，A, B, C，其中集合A和B表示在无向图G中被结点集合C分开的任意结点集合

给定随机变量组Yc的条件下，随机变量组Ya和Yb是条件独立的。

满足三条性质就是的联合概率分布P(Y)就是联合概率无向图模型，如何求这个联合概率的分布，写成若干子联合概率乘积的形式。还好概率无向图模型能因子分解

2. 因子分解

团：任意两个节点均有边连接的结点子集。

最大团：不能再加进任何一个新的结点使其成为更大的团。

因子分解：表示将概率无向图上的联合概率分布表示为其最大团上的随机变量的函数的乘积形式

P(Y)可以写成图中所有最大团C上的函数Ψc(Yc)的乘积形式，Z是规范化因子

势函数要求是严格正的，通常是指数函数

3. 条件随机场的定义：输入序列来预测输出序列的判别式模型

P(Y|X) X是需要标注的观测序列，Y是标记序列。利用训练集通过极大似然估计得到条件概率模型。在测试过程，对于给定的观测序列，模型需要求出条件概率最大的输出序列。

对任意结点v都成立，则P(Y|X)为条件随机场，就是做了一个假设简化了计算，只考虑相连，忽略外围其他边。

中 w≠v表示 w 是除 v 以外的所有节点，w∼v表示 w 是与 v 相连接的所有节点。

线性链条件随机场的定义：

其中当 i 取 1 或 n 时只考虑单边。

4. 线性链条件随机场的数学表达式

线性链条件随机场的参数化形式：特征函数及例子

Z(x) 作为规范化因子，是对 y 的所有可能取值求和。

tk特征函数定义在边上，称为转移特征，依赖当前和前一位置，sl特征函数定义在结点上，称为状态特征，依赖当前位置。两者取值0或1，当特征条件满足为1，不满足为0，条件随机场完全有特征函数tk，sl和对应权重确定。

tk和sl相当于给定的特征模板，给定y可以计算出该标记序列的条件概率。

以序列标注为例：

序列标注 vs 分类

序列标注不是简单的分类，这两类问题存在非常大的区别

lstm处理特征fc到类别数后直接softmax效果没有crf好，因为为每一个待标注的位置都当作一个样本然后进行分类，这样单点的分类，将会有很大的信息损失，因为一个序列的不同位置之间存在联系，应该对这个相关性建模。

条件随机场的简化形式：

这种双重求和就表明了对于同一个特征(k)，在各个位置(i)上都有定义。将某一特征模板在所有位置上求和的做法相当于在将局部特征转化为全局特征函数，从而可以写成内积形式。

矩阵形式：

这种形式依托于线性链条件随机场对应的图模型仅在两个相邻节点之间存在边。在状态序列的两侧添加两个新的状态 y0=start 、yn+1=stop。

未完待续

线性链条件随机场的解码问题

解码问题即预测问题，给定条件随机场 P(Y|X) 和观测序列 x ，求最有可能的状态序列 y^*。与 HMM 类似，使用维特比算法求解。

线性链条件随机场的学习问题

对权重w求导

长短时记忆网络LSTM和条件随机场crf的更多相关文章

(转)零基础入门深度学习(6) - 长短时记忆网络(LSTM)
无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的技术,会不会感觉马上就o ...
长短时记忆网络(LSTM)
长短时记忆网络循环神经网络很难训练的原因导致它的实际应用中很处理长距离的依赖.本文将介绍改进后的循环神经网络:长短时记忆网络(Long Short Term Memory Network, LSTM ...
零基础入门深度学习(6) - 长短时记忆网络(LSTM)
代码: def forward(self, x): ''' 根据式1-式6进行前向计算 ''' self.times += 1 # 遗忘门 fg = self.calc_gate(x, self.Wf ...
机器学习与Tensorflow（5）——循环神经网络、长短时记忆网络
1.循环神经网络的标准模型前馈神经网络能够用来建立数据之间的映射关系,但是不能用来分析过去信号的时间依赖关系,而且要求输入样本的长度固定循环神经网络是一种在前馈神经网络中增加了分亏链接的神经网络, ...
LSTM——长短时记忆网络
LSTM(Long Short-term Memory),长短时记忆网络是1997年Hochreiter和Schmidhuber为了解决预测位置与相关信息之间的间隔增大或者复杂语言场景中,有用信息间隔 ...
RNN学习笔记（一）：长短时记忆网络（LSTM）
一.前言在图像处理领域,卷积神经网络(Convolution Nerual Network,CNN)凭借其强大的性能取得了广泛的应用.作为一种前馈网络,CNN中各输入之间是相互独立的,每层神经元的信 ...
条件随机场(CRF) - 1 - 简介（转载）
转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618222.html 首先我们先弄懂什么是"条件随机场",然后再探索其详 ...
条件随机场(CRF) - 1 - 简介
声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,由于本人在学习初始时有很多数学知识都已忘记,所以为了 ...
条件随机场(CRF) - 2 - 定义和形式（转载）
转载自:http://www.68idc.cn/help/jiabenmake/qita/20160530618218.html 参考书本: <2012.李航.统计学习方法.pdf> 书上 ...

随机推荐

delphi 控件集
delphi 控件集: 1)RAIZE 控件包 :http://www.raize.com/devtools/rzcomps/ 被收购 Raize Components has been ac ...
EntityFramework之事务
一.EF事务引用程序集 using System.Transactions; 用法 var writer = new System.IO.StringWriter(); try { using (v ...
012_k8s专题系列一之进入容器日常op
一.下面列出如何进入正在运行的k8s容器 <1> kubectl get pods #查看所有正在运行的pod NAME READY STATUS RESTARTS AGE nginx-5 ...
$Django 在线文本编辑器skindeditor
简介 KindEditor是一套开源的在线HTML编辑器,主要用于让用户在网站上获得所见即所得编辑效果,开发人员可以用 KindEditor 把传统的多行文本输入框(textarea)替换为可视化的富 ...
在Centos7 上安装SVN
https://blog.csdn.net/crossangles_2017/article/details/78553266 1.安装使用yum安装非常简单: yum install subver ...
corba/ice/web service/com+
//todo model1 model2
web中绝对路径换虚拟路径
最近在做一个web项目,将图片上传到服务器后,再访问时拿到的是绝对路劲,而需要的是虚拟路劲.经过一番折腾找到了下列方法可以直接转换. /// <summary> /// 将W ...
Linux学习之CentOS(三)--初识linux的文件系统以及用户组等概念
Linux学习之CentOS(三)--初识linux的文件系统以及用户组等概念进入到了Linux学习之CentOS第三篇了,这篇文章主要记录下对linux文件系统的初步认识,以及用户组.用户权限.文 ...
C# Excel行高、列宽、合并单元格、单元格边框线、冻结
private _Workbook _workBook = null;private Worksheet _workSheet = null;private Excel.Application _ex ...
mysql5.7设置简单密码报错ERROR 1819 (HY000): Your password does not satisfy the current policy requirements
注:本文来源于< mysql5.7设置简单密码报错ERROR 1819 (HY000): Your password does not satisfy the current policy r ...

长短时记忆网络LSTM和条件随机场crf

长短时记忆网络LSTM和条件随机场crf的更多相关文章

随机推荐

热门专题