ELMO模型（Deep contextualized word representation）

1 概述

　　word embedding 是现在自然语言处理中最常用的 word representation 的方法，常用的word embedding 是word2vec的方法，然而word2vec本质上是一个静态模型，也就是说利用word2vec训练完每个词之后，词的表示就固定了，之后使用的时候，无论新句子上下文的信息是什么，这个词的word embedding 都不会跟随上下文的场景发生变化，这种情况对于多义词是非常不友好的。例如英文中的 Bank这个单词，既有河岸的意思，又有银行的意思，但是在利用word2vec进行word embedding 预训练的时候会获得一个混合多种语义的固定向量表示。即使在根据上下文的信息能明显知道是“银行”的情况下，它对应的word embedding的内容也不会发生改变。

　　ELMO的提出就是为了解决这种语境问题，动态的去更新词的word embedding。ELMO的本质思想是：事先用语言模型在一个大的语料库上学习好词的word embedding，但此时的多义词仍然无法区分，不过没关系，我们接着用我们的训练数据（去除标签）来fine-tuning 预训练好的ELMO 模型。作者将这种称为domain transfer。这样利用我们训练数据的上下文信息就可以获得词在当前语境下的word embedding。作者给出了ELMO 和Glove的对比

　　对于Glove训练出来的word embedding来说，多义词play，根据他的embedding 找出的最接近的其他单词大多数几种在体育领域，这主要是因为训练数据中包含play的句子大多数来源于体育领域，之后在其他语境下，play的embedding依然是和体育相关的。而使用ELMO，根据上下文动态调整后的embedding不仅能够找出对应的“表演”相同的句子，还能保证找出的句子中的play对应的词性也是相同的。接下来看看ELMO是怎么实现这样的结果的。

2 模型结构

　　ELMO 基于语言模型的，确切的来说是一个 Bidirectional language models，也是一个 Bidirectional LSTM结构。我们要做的是给定一个含有N个tokens的序列

　　$ {t_1, t_2, ..., t_N}$

　　其前向表示为：

　　反向表示为：

　　从上面的联合概率来看是一个典型的语言模型，前向利用上文来预测下文，后向利用下文来预测上文。假设输入的token是 $ x_k^{LM}$，在每一个位置 $k$ ，每一层LSTM 上都输出相应的context-dependent的表征 $\overrightarrow{h}_{k, j}^{LM}$。这里

　　$j = 1, 2, ..., L$， $L$表示LSTM的层数。顶层的LSTM 输出 $\overrightarrow{h}_{k, L}^{LM}$ ，通过softmax层来预测下一个 $token_{k+1}$。

　　对数似然函数表示如下：

　　模型的结构图如下：

　　ELMO 模型不同于之前的其他模型只用最后一层的输出值来作为word embedding的值，而是用所有层的输出值的线性组合来表示word embedding的值。

　　对于每个token，一个L层的biLM要计算出 $2L + 1$ 个表征：

　　在上面 $ X_k^{LM} $ 等于 $ h_{k, j} ^ {LM} $，表示的是token层的值。

　　在下游任务中会把$R_k$ 压缩成一个向量：

　　其中 $s_j^{task}$ 是softmax标准化权重，$\gamma^{task}$ 是缩放系数，允许任务模型去缩放整个ELMO向量。

　　ELMO的使用主要有三步：

　　1）在大的语料库上预训练 biLM 模型。模型由两层bi-LSTM 组成，模型之间用residual connection 连接起来。而且作者认为低层的bi-LSTM层能提取语料中的句法信息，高层的bi-LSTM能提取语料中的语义信息。

　　2）在我们的训练语料（去除标签），fine-tuning 预训练好的biLM 模型。这一步可以看作是biLM的domain transfer。

　　3）利用ELMO 产生的word embedding来作为任务的输入，有时也可以即在输入时加入，也在输出时加入。

　　ELMO 在六项任务上取得了the state of the art ，包括问答，情感分析等任务。总的来说，ELMO提供了词级别的动态表示，能有效的捕捉语境信息，解决多义词的问题。

ELMO模型（Deep contextualized word representation）的更多相关文章

论文翻译——Deep contextualized word representations
Abstract We introduce a new type of deep contextualized word representation that models both (1) com ...
深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes
来自:CVPR 2014 作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predic ...
翻译 Improved Word Representation Learning with Sememes
翻译 Improved Word Representation Learning with Sememes 题目 Improved Word Representation Learning with ...
论文阅读笔记 Improved Word Representation Learning with Sememes
论文阅读笔记 Improved Word Representation Learning with Sememes 一句话概括本文工作使用词汇资源--知网--来提升词嵌入的表征能力,并提出了三种基于 ...
论文解读（GRACE）《Deep Graph Contrastive Representation Learning》
Paper Information 论文标题:Deep Graph Contrastive Representation Learning论文作者:Yanqiao Zhu, Yichen Xu, Fe ...
NLP直播-1 词向量与ELMo模型
翻车2次,试水2次,今天在B站终于成功直播了. 人气11万. 主要讲了语言模型.词向量的训练.ELMo模型(深度.双向的LSTM模型) 预训练与词向量词向量的常见训练方法深度学习与层次表示 LST ...
理解GloVe模型（Global vectors for word representation）
理解GloVe模型概述模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息.输入:语料库输出:词向量方法概述:首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学 ...
【NLP CS224N笔记】Lecture 3 GloVe： Global Vectors for Word Representation
I. 复习word2vec的核心思路 1. Skip-gram 模型示意图: 2.word vectors的随机梯度假设语料库中有这样一行句子: I love deep learning and N ...
Learning a Deep Compact Image Representation for Visual Tracking
这篇博客对论文进行了部分翻译http://blog.csdn.net/vintage_1/article/details/19546953,不过个人觉得博主有些理解有误. 这篇博客简单分析了代码htt ...

随机推荐

【Java每日一题】20170327
20170324问题解析请点击今日问题下方的“[Java每日一题]20170327”查看(问题解析在公众号首发,公众号ID:weknow619) package Mar2017; public cla ...
Docker 系列六（Docker Swarm 项目）.
一.前言随着互联网快速发展,以及微服务架构的流行,服务器的压力越来越大.上一篇介绍的 Docker Compose 项目,可以将多个容器捏合在一起,实现容器间的通信,比如 Web 项目对 DB.Ca ...
js原型链结构与链表结构对比
在结构上多一个指向自身的constructor构造函数,这就是原型链够简单吧. 利用原型链结构实现继承和向链表中插入节点,有区别吗? 没区别!!
读书笔记--Android Gradle权威指南（上）
本篇文章已授权微信公众号 dasu_Android(大苏)独家发布最近看了一本书<Android Gradle 权威指南>,对于 Gradle 理解又更深了,但不想过段时间就又忘光了,所 ...
C#时间、日期的操作
原文地址:http://zhidao.baidu.com/link?url=q-0No1LWfdyqQKFBg8RN5h0K-X0VygSbFI4sR8lBPwDExkIIzXQivyMKqX7V1y ...
js 冒泡排序、快速排序、去重、查找字符串最多值（面试常有）
冒泡排序 var bubbleSort = function(arr) { for (var i = 0; i < arr.length-1; i++) { for (var j = i+1; ...
2018-08-11 中文代码示例之Spring Boot 2.0.3问好
上次试用Spring Boot还是两年前: 中文代码示例之Spring Boot 1.3.3演示. 打算用在一个讨论组内小项目上, 于是从官网Building an Application with ...
Tars 负载均衡
// 传入主控地址,在 db_tars t_registry_info 表中 Communicator communicator = CommunicatorFactory.getInstance() ...
Android内存优化（二）解析Memory Monitor、Allocation Tracker和Heap Dump
前言要想做好内存优化工作,就要掌握两大部分的知识,一部分是知道并理解内存优化相关的原理,另一部分就是善于运用内存分析的工具.本篇就来介绍内存分析工具:Memory Monitor.Allocatio ...
[Python] wxPython 基本控件 (转)
转自:http://www.cnblogs.com/wangjian8888/p/6028777.html 一.静态文本控件 wx.StaticText(parent, id, label, pos= ...

ELMO模型（Deep contextualized word representation）

ELMO模型（Deep contextualized word representation）的更多相关文章

随机推荐

热门专题