GloVe 模型介绍

下面的内容主要来自https://blog.csdn.net/u014665013/article/details/79642083

GloVe的推导

GloVe是基于共现信息来获得词的分布表示的，所以需要统计词的共现对信息。在设定的窗口内，统计中心词$k$与其上下文词$i$的共现次数$X_{i,k}$。那么有
\[
P_{i,k} = \dfrac{X_{i,k}}{X_i}
\]
其中
\[
X_i = \sum_{j}X_{i,j}
\]
作者发现对于任意三个词$i,j,k$, \[
ratio_{i,j,k} = \dfrac{P_{i,k}}{P_{j,k}}
\]存在以下关系

$ratio_{i,j,k}$	单词$j,k$相关	单词$j,k$不相关
单词$i,k$相关	趋近1	很大
单词$i,k$不相关	很小	趋近1

GloVe模型要做的就是建模上述关系，因此需要寻找一个函数$g$，使得
\[
\dfrac{P_{i,k}}{P_{j,k}} = g(v_i, v_j, v_k)
\]
一个较为直观的做法就是
\[
g(v_i,v_j,v_k) = \exp(v_i^Tv_k - v_j^Tv_k) = \dfrac{\exp (v_i^Tv_k)}{\exp(v_j^Tv_k)} = \dfrac{P_{i,k}}{P_{j,k}}
\]
所以，对于任意的词$i,k$，仅需要使得$v_i^Tv_k = \log P_{i,k}$即可，便可得到目标函数
\[
J= \sum_{i,k}^N(v_i^Tv_k - \log P_{i,k})^2
\]
等等，这个方法似乎存在问题，因为$\log P_{i,k}$ 不等于$\log P_{k,i}$但是$v_i^Tv_j = v_j^Tv_i$，这样需要进行补救一下
\[
\log P_{i,k} = \log(X_{i,k}) - \log(X_i) = v_i^Tv_k
\]
此时引入两个偏置$b_i, b_j$，
使得
\[
\log(X_{i,k}) = v_i^Tv_k + b_i + b_k
\]
$\log(X_i)$被偏置项吸纳。进而，我们的优化目标变为
\[
J = \sum_{i,k}f(X_{i,k})(v_i^Tv_j+b_i+b_k - \log(X_{i,k}))^2
\]
其中$f(X_{i,k})$为一个常量，其计算如下
\[
f(x) = \begin{cases}
(x/xmax)^0.75 & x < xmax\\
1 & x \ge xmax
\end{cases}
\]
其作用是某些词频率过高，通常没有多大的意义，比如停用词，所以不能给过高的权重，此处的xmax是一个超参数。

如何理解Global

GloVe 即Global Vectors，如word2vec一样，都有滑动窗口，那么Global体现在哪里？
从上面的推导过程中，我们不难发现，GloVe在参数的训练前，就已经统计好了一个共现矩阵，而这个共现矩阵是全局的，是整个语料的，然后再基于此进行参数学习，而word2vec在参数学习的时候，是局部的，每次只在一个窗口内的学习，只利用到了该窗口内的信息，比如cbow，每次都是基于单个窗口内的上下文词预测中心词。

GloVe词分布式表示的更多相关文章

[DeeplearningAI笔记]序列模型2.8 GloVe词向量
5.2自然语言处理觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.8 GloVe word vectors GloVe词向量 Pennington J, Socher R, Mannin ...
NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）
有很多改进版的word2vec,但是目前还是word2vec最流行,但是Glove也有很多在提及,笔者在自己实验的时候,发现Glove也还是有很多优点以及可以深入研究对比的地方的,所以对其进行了一定的 ...
文本情感分析(二)：基于word2vec、glove和fasttext词向量的文本表示
上一篇博客用词袋模型,包括词频矩阵.Tf-Idf矩阵.LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题. 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用 ...
L25词嵌入进阶GloVe模型
词嵌入进阶在"Word2Vec的实现"一节中,我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型,并通过词向量的余弦相似度搜索近义词.虽然 Word2Vec 已经能够成 ...
NLP教程(2) | GloVe及词向量的训练与评估
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
NLP︱词向量经验总结（功能作用、高维可视化、R语言实现、大规模语料、延伸拓展）
R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题. 笔者认为还存在的问题有: 1.如何在R语言环境下,大规模语料提高运 ...
DeepLearning.ai学习笔记（五）序列模型 -- week2 自然语言处理与词嵌入
一.词汇表征首先回顾一下之前介绍的单词表示方法,即one hot表示法. 如下图示,"Man"这个单词可以用 $O_{5391}$ 表示,其中O表示One_hot.其他单词同 ...
DLNg序列模型第二周NLP与词嵌入
1.使用词嵌入给了一个命名实体识别的例子,如果两句分别是“orange farmer”和“apple farmer”,由于两种都是比较常见的,那么可以判断主语为人名. 但是如果是榴莲种植员可能就无法 ...
2.keras实现-->字符级或单词级的one-hot编码 VS 词嵌入
1. one-hot编码 # 字符集的one-hot编码 import string samples = ['zzh is a pig','he loves himself very much','p ...

随机推荐

JavaScript中三种字符串连接方式及其性能比较
参考地址: https://www.cnblogs.com/programs/p/5554742.html 工作中经常会碰到要把2个或多个字符串连接成一个字符串的问题,在JS中处理这类问题一般有三种方 ...
JAVA加密解密DES对称加密算法
下面用DES对称加密算法(设定一个密钥,然后对所有的数据进行加密)来简单举个例子. 首先,生成一个密钥KEY. 我把它保存到key.txt中.这个文件就象是一把钥匙.谁拥有它,谁就能解开我们的类文件. ...
测试的发现遗漏BUG的做法
首先要确认BUG的影响范围: 后续做法如下: 1.从测试角度来说,外部缺陷等同与系统崩溃,测试是必须提的2.可以询问主管或负责人是否在后一个版本中修改3.评估缺陷对于用户使用存在多大的不便4.判定缺陷 ...
win10 ，本地连接无法识别网络，无线正常，
win10 ,本地连接无法识别网络 ,无线正常, 电脑诊断是:“此计算机上缺少一个或者多个网络协议” 1.手动设置ip 失败 2.网卡卸载驱动 ...
webpack4 + vue多页面项目精细构建思路
#构建思路虽然当前前端项目多以单页面为主,但多页面也并非一无是处,在一些情况下也是有用武之地的,比如: 项目庞大,各个业务模块需要解耦 SEO更容易优化没有复杂的状态管理问题可以实现页面单独上线 ...
vs 2012打开vs2013的sln
Project -> Properties -> General -> Platform Toolset (as IInspectable correctly commented)
新手 WordPress主题制作全过程
WordPress主题制作全过程(一):基础准备前言: 我想大多数使用WordPress的朋友都喜欢去尝试新的主题,但是换来换去,总是找不到那么一款适合自己的,让人很郁闷.于是很多人萌生了修改现有主 ...
如何将oracle查询的结果传输给变量
如何将oracle查询的结果传输给变量 1. sqlplus查询时的变量设置 set echo off; #控制start命令不列出命令文件中的每一命令 set feedback off; #显示由查 ...
一句话懂什么是JS闭包
无论何时声明新函数并将其赋值给变量,都要存储函数定义和闭包.闭包包含在函数创建时作用域中的所有变量,它类似于背包.函数定义附带一个小背包,它的包中存储了函数定义创建时作用域中的所有变量. 我将永远记住 ...
洛谷 P1593 因子和
https://www.luogu.org/problemnew/show/P1593#sub 利用约数和定理:可以去看一下公式第13条然后这个题目的话,要求$a^b$,那么我们首先可以先将a分解然 ...

\(ratio_{i,j,k}\)	单词\(j,k\)相关	单词\(j,k\)不相关
单词\(i,k\)相关	趋近1	很大
单词\(i,k\)不相关	很小	趋近1

GloVe词分布式表示

GloVe 模型介绍

GloVe的推导

如何理解Global

GloVe词分布式表示的更多相关文章

随机推荐

热门专题