Pytorch Bi-LSTM + CRF 代码详解

久闻LSTM + CRF的效果强大，最近在看Pytorch官网文档的时候，看到了这段代码，前前后后查了很多资料，终于把代码弄懂了。我希望在后来人看这段代码的时候，直接就看我的博客就能完全弄懂这段代码。
看这个博客之前，我首先建议看看
Pytorch 关于Bi-LSTM + CRF的解释
看完再看看这位的博客
Bi-LSTM-CRF for Sequence Labeling PENG
这两部分内容都看完了之后，我就接着上面这位的博客继续讲，他讲的很好了，只是没有讲的更细致。

首先我们来看看Score的定义：

这部分博主的解释很详细了，这里我想多提醒一下的是，我们的每一个Score都是对应于一个完整的路径，举例说
【我爱中国人民】对应标签【N V N】那这个标签就是一个完整的路径，也就对应一个Score值。

接下来我想讲的是这个公式

这个公式成立是很显然的，动笔算一算就知道了，代码里其实就是用了这个公式的原理，但是这位博主并没有详细解释代码是怎么实现这个公式的，所以我就写下这篇博客来完成这位博主没有做完的工作。
先上代码

def _forward_alg(self, feats):
# Do the forward algorithm to compute the partition function
init_alphas = torch.Tensor(1, self.tagset_size).fill_(-10000.)
# START_TAG has all of the score.
init_alphas[0][self.tag_to_ix[START_TAG]] = 0.

# Wrap in a variable so that we will get automatic backprop
forward_var = autograd.Variable(init_alphas)

# Iterate through the sentence
for feat in feats:
alphas_t = [] # The forward variables at this timestep
for next_tag in range(self.tagset_size):
# broadcast the emission score: it is the same regardless of
# the previous tag
emit_score = feat[next_tag].view(
1, -1).expand(1, self.tagset_size)
# the ith entry of trans_score is the score of transitioning to
# next_tag from i
trans_score = self.transitions[next_tag].view(1, -1)
# The ith entry of next_tag_var is the value for the
# edge (i -> next_tag) before we do log-sum-exp
next_tag_var = forward_var + trans_score + emit_score
# The forward variable for this tag is log-sum-exp of all the
# scores.
alphas_t.append(log_sum_exp(next_tag_var))
forward_var = torch.cat(alphas_t).view(1, -1)
terminal_var = forward_var + self.transitions[self.tag_to_ix[STOP_TAG]]
alpha = log_sum_exp(terminal_var)
return alpha
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
我们看到有这么一段代码
next_tag_var = forward_var + trans_score + emit_score
我们主要就是来讲讲他。
首先这个算法的思想是：假设我们要做一个词性标注的任务，对句子【我爱中华人民】，我们要对这个句子做
意思就是对这个句子所有可能的标注，都算出来他们的Score，然后按照指数次幂加起来，再取对数。一般来说取所有可能的标注情况比较复杂，我们这里举例是长度为三，但是实际过程中，可能比这个要大得多，所以我们需要有一个简单高效得算法。也就是我们程序中得用得算法，他是这么算得。
先算出【我，爱】可能标注得所有情况，取 log_sum_exp 然后加上转换到【中国人民】得特征值再加上【中国人民】对应得某个标签得特征值。其等价于【我，爱，中国人民】所有可能特征值指数次幂相加，然后取对数

接下来我们来验证一下是不是这样

首先我们假设词性一共只有两种名词N 和动词 V
那么【我，爱】得词性组合一共有四种 N + N，N + V, V + N, V + V
那么【爱】标注为N时得log_sum_exp 为
log(escore(N，N)+score(V，N))
log(escore(N，N)+score(V，N))

【爱】标注为 V时的 log_sum_exp为
log(escore(N，V)+score(V，V))
log(escore(N，V)+score(V，V))

我们的forward列表里就是存在着这两个值，即：
[
log(escore(N,N)+score(V，N))
log(escore(N,N)+score(V，N))
，
log(escore(N，N)+score(V，N))
log(escore(N，N)+score(V，N))
]
在这里我在提醒一下score(N，V)的定义，前面有写哈，可以翻前面取看看。
假设【中华人民】得词性为N,我们按照代码来写一下公式,在forward列表对应位置相加就是这样
[
log(escore(N+N)+score(V+N)+N+N−>N)
log(escore(N+N)+score(V+N)+N+N−>N)
,
log(escore(N，V)+score(V，V))+N+V−>N
log(escore(N，V)+score(V，V))+N+V−>N

]
我们的N+N->N可以写成 log(eN+N−>N)log(eN+N−>N),这样的话，我们的列表就变成
[
log(escore(N，N)+score(V，N)+N+N−>N)log(escore(N，N)+score(V，N)+N+N−>N),
log(escore(N，V)+score(V，V)+N+V−>N)log(escore(N，V)+score(V，V)+N+V−>N),
]
再次回想一下score的定义，我们就能知道这个式子其实也就是等于
[
log(escore(∗,N,N))log(escore(∗,N,N)),log(escore(∗,V,N)log(escore(∗,V,N)
]
我们对这个式子 long_sum_exp就变成了log∑(escore(∗,∗,N))log∑(escore(∗,∗,N))
他的直观意义就是【中华人民】的词性为N的时候，整个score值的long_sum_exp
以上是我们把【中华人民】作为N的举例，如果我们再举V的情况，计算过程同上，最后我们要把中华人民两种情况的再做一次log_sum_exp，这样我们就完成了【我，爱，中华人民】所有情况的score值的log_sum_exp
以上就是对LSTM+crf 的所有讲解，有问题，请留言
---------------------
作者：Johnny_Cuii
来源：CSDN
原文：https://blog.csdn.net/cuihuijun1hao/article/details/79405740
版权声明：本文为博主原创文章，转载请附上博文链接！

Pytorch Bi-LSTM + CRF 代码详解的更多相关文章

pytorch BiLSTM+CRF代码详解重点
一. BILSTM + CRF介绍 https://www.jianshu.com/p/97cb3b6db573 1.介绍基于神经网络的方法,在命名实体识别任务中非常流行和普遍. 如果你不知道Bi- ...
pytorch lstm crf 代码理解
好久没有写博客了,这一次就将最近看的pytorch 教程中的lstm+crf的一些心得与困惑记录下来. 原文 PyTorch Tutorials 参考了很多其他大神的博客,https://blog.c ...
Github-jcjohnson/torch-rnn代码详解
Github-jcjohnson/torch-rnn代码详解 zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2016-3- ...
Github-karpathy/char-rnn代码详解
Github-karpathy/char-rnn代码详解 zoerywzhou@gmail.com http://www.cnblogs.com/swje/ 作者:Zhouwan 2016-1-10 ...
Kaggle网站流量预测任务第一名解决方案：从模型到代码详解时序预测
Kaggle网站流量预测任务第一名解决方案:从模型到代码详解时序预测 2017年12月13日 17:39:11 机器之心V 阅读数:5931 近日,Artur Suilin 等人发布了 Kaggl ...
BM算法　　Boyer-Moore高质量实现代码详解与算法详解
Boyer-Moore高质量实现代码详解与算法详解鉴于我见到对算法本身分析非常透彻的文章以及实现的非常精巧的文章,所以就转载了,本文的贡献在于将两者结合起来,方便大家了解代码实现! 算法详解转自:h ...
ASP.NET MVC 5 学习教程：生成的代码详解
原文 ASP.NET MVC 5 学习教程:生成的代码详解起飞网 ASP.NET MVC 5 学习教程目录: 添加控制器添加视图修改视图和布局页控制器传递数据给视图添加模型创建连接字符串 ...
代码详解：TensorFlow Core带你探索深度神经网络“黑匣子”
来源商业新知网,原标题:代码详解:TensorFlow Core带你探索深度神经网络“黑匣子” 想学TensorFlow?先从低阶API开始吧~某种程度而言,它能够帮助我们更好地理解Tensorflo ...
JAVA类与类之间的全部关系简述+代码详解
本文转自: https://blog.csdn.net/wq6ylg08/article/details/81092056类和类之间关系包括了 is a,has a, use a三种关系(1)is a ...

随机推荐

集合-Collection接口
集合和数组的比较: 数组 - 本质上就是在内存空间中申请的一段连续内存空间,存放多个相同类型的数据 - 数组一旦定义完毕,则在内存空间中的长度固定. - 插入/删除元素时可能导致大量元素的移动, ...
python编写购物车小程序
#练习#程序购物车#启动程序后,让用户输入工资, 然后打印商品列表,允许用户根据商品编号购买商品用户选择商品后 #检测余额是否够,够就直接扣款,不够就提醒可随时退出,退出时,打印已购买商品和余额 ...
git解决冲突的最佳方法
用eclipse egit 去pull 代码出现冲突点击details 全选复制到记事本上如上图选择3个冲突中的一个 eclipse快捷键 ctrl + shift+R 张贴回车 ...
笔记：投机和投资 F4NNIU
笔记:投机和投资 F4NNIU 投机是零和交易. 投资是正和博弈. 投机看是短期,只关心当下. 投资是看的长期,更关注未来. 投机容易分散注意力. 投资更关心交易外的注意力. 投机像是看运气,运气有好 ...
openssl生成证书 - CSDN博客
大家都可以生成公钥.私钥对,无法确认公钥对到底是谁的. 如果能够确定公钥到底是谁的,就不会有这个问题了.例如,如果收到“黑客”冒充“服务器”发过来的公钥,经过某种检查,如果能够发现这个公钥不是“服务器 ...
Liferay Model Hints
这篇文章主要介绍如何通过model hint 来修改liferay builder service生成数据库表中默认字段的长度. 1.什么是Model Hints? 它是对liferay builde ...
介绍elasticsearch的文件
elasticsearch.yml文件打开上边的文件,我们看到下面的"集群"名称,节点名称下图是文件的存储路径和日志路径下面是监听的地址,默认是本机下图指的是,集群是怎样搭 ...
Linux的一些简单命令操作总结
防火墙查看防火墙状态 systemctl status iptables (或service iptables status) 关闭防火墙 systemctl stop iptables(或serv ...
docker无法删除镜像，Error: No such container，附docker常用命令
最近打算删除掉docker镜像但是发现有几个镜像就是删除不了,加了-f强制删除也不行,一直报Error: No such container的错误,最后终于找到了办法直接删除文件,步骤如下: 切换到r ...
Java8中的LocalDateTime工具类
网上搜索了半天都没有找到Java8的LocalDateTime的工具类,只好自己写了一个,常用功能基本都有.还在用Date的Java同道该换换了. 个人项目地址:https://github.com/ ...

Pytorch Bi-LSTM + CRF 代码详解

Pytorch Bi-LSTM + CRF 代码详解的更多相关文章

随机推荐

热门专题