GloVe 模型介绍

下面的内容主要来自https://blog.csdn.net/u014665013/article/details/79642083

GloVe的推导

GloVe是基于共现信息来获得词的分布表示的，所以需要统计词的共现对信息。在设定的窗口内，统计中心词\(k\)与其上下文词\(i\)的共现次数\(X_{i,k}\)。那么有
\[
P_{i,k} = \dfrac{X_{i,k}}{X_i}
\]
其中
\[
X_i = \sum_{j}X_{i,j}
\]
作者发现对于任意三个词\(i,j,k\), \[
ratio_{i,j,k} = \dfrac{P_{i,k}}{P_{j,k}}
\]存在以下关系

\(ratio_{i,j,k}\)	单词\(j,k\)相关	单词\(j,k\)不相关
单词\(i,k\)相关	趋近1	很大
单词\(i,k\)不相关	很小	趋近1

GloVe模型要做的就是建模上述关系，因此需要寻找一个函数\(g\)，使得
\[
\dfrac{P_{i,k}}{P_{j,k}} = g(v_i, v_j, v_k)
\]
一个较为直观的做法就是
\[
g(v_i,v_j,v_k) = \exp(v_i^Tv_k - v_j^Tv_k) = \dfrac{\exp (v_i^Tv_k)}{\exp(v_j^Tv_k)} = \dfrac{P_{i,k}}{P_{j,k}}
\]
所以，对于任意的词\(i,k\)，仅需要使得\(v_i^Tv_k = \log P_{i,k}\)即可，便可得到目标函数
\[
J= \sum_{i,k}^N(v_i^Tv_k - \log P_{i,k})^2
\]
等等，这个方法似乎存在问题，因为\(\log P_{i,k}\) 不等于\(\log P_{k,i}\)但是\(v_i^Tv_j = v_j^Tv_i\)，这样需要进行补救一下
\[
\log P_{i,k} = \log(X_{i,k}) - \log(X_i) = v_i^Tv_k
\]
此时引入两个偏置\(b_i, b_j\)，
使得
\[
\log(X_{i,k}) = v_i^Tv_k + b_i + b_k
\]
\(\log(X_i)\)被偏置项吸纳。进而，我们的优化目标变为
\[
J = \sum_{i,k}f(X_{i,k})(v_i^Tv_j+b_i+b_k - \log(X_{i,k}))^2
\]
其中\(f(X_{i,k})\)为一个常量，其计算如下
\[
f(x) = \begin{cases}
(x/xmax)^0.75 & x < xmax\\
1 & x \ge xmax
\end{cases}
\]
其作用是某些词频率过高，通常没有多大的意义，比如停用词，所以不能给过高的权重，此处的xmax是一个超参数。

如何理解Global

GloVe 即Global Vectors，如word2vec一样，都有滑动窗口，那么Global体现在哪里？
从上面的推导过程中，我们不难发现，GloVe在参数的训练前，就已经统计好了一个共现矩阵，而这个共现矩阵是全局的，是整个语料的，然后再基于此进行参数学习，而word2vec在参数学习的时候，是局部的，每次只在一个窗口内的学习，只利用到了该窗口内的信息，比如cbow，每次都是基于单个窗口内的上下文词预测中心词。

GloVe词分布式表示的更多相关文章

[DeeplearningAI笔记]序列模型2.8 GloVe词向量
5.2自然语言处理觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.8 GloVe word vectors GloVe词向量 Pennington J, Socher R, Mannin ...
NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）
有很多改进版的word2vec,但是目前还是word2vec最流行,但是Glove也有很多在提及,笔者在自己实验的时候,发现Glove也还是有很多优点以及可以深入研究对比的地方的,所以对其进行了一定的 ...
文本情感分析(二)：基于word2vec、glove和fasttext词向量的文本表示
上一篇博客用词袋模型,包括词频矩阵.Tf-Idf矩阵.LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题. 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用 ...
L25词嵌入进阶GloVe模型
词嵌入进阶在"Word2Vec的实现"一节中,我们在小规模数据集上训练了一个 Word2Vec 词嵌入模型,并通过词向量的余弦相似度搜索近义词.虽然 Word2Vec 已经能够成 ...
NLP教程(2) | GloVe及词向量的训练与评估
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/36 本文地址:http://www.showmeai.tech/article-det ...
NLP︱词向量经验总结（功能作用、高维可视化、R语言实现、大规模语料、延伸拓展）
R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题. 笔者认为还存在的问题有: 1.如何在R语言环境下,大规模语料提高运 ...
DeepLearning.ai学习笔记（五）序列模型 -- week2 自然语言处理与词嵌入
一.词汇表征首先回顾一下之前介绍的单词表示方法,即one hot表示法. 如下图示,"Man"这个单词可以用 \(O_{5391}\) 表示,其中O表示One_hot.其他单词同 ...
DLNg序列模型第二周NLP与词嵌入
1.使用词嵌入给了一个命名实体识别的例子,如果两句分别是“orange farmer”和“apple farmer”,由于两种都是比较常见的,那么可以判断主语为人名. 但是如果是榴莲种植员可能就无法 ...
2.keras实现-->字符级或单词级的one-hot编码 VS 词嵌入
1. one-hot编码 # 字符集的one-hot编码 import string samples = ['zzh is a pig','he loves himself very much','p ...

随机推荐

arcgis jsapi接口入门系列（9）：可以同时显示多个的地图popup
jsapi有提供popup功能,但缺点很多,例如地图上只能同时显示一个popup,popup内容有限制等本文提供另一个方法,原理不用jsapi,在地图外用一个普通的div放在地图上面,再监听地图的鼠 ...
FAST FW150R软件版本升级解决一些网页无法加载问题
家里用的移动宽带,通过无线路由器无线上网.上taobao.天猫都很快,但是一上京东.苏宁易购界面加载很慢,界面无法显示,怀疑是无线路由问题,然后直接通过网线相连接,发现问题消失,决定对无线路由软件版本 ...
Unity的stateMachineBehaviour
Unity5新增的StateMachineBehaviour是对状态机的内置,确实方便了很多,这里记录它的两个问题: 1.如果正在执行的状态被打断,当前状态的OnStateExit不会被执行,该问题在 ...
SQLServer 2012 Always on配置全过程
AlwaysOn取数据库镜像和故障转移集群之长.AlwaysOn不再像故障转移集群那样需要共享磁盘,从而主副本和辅助副本可以更容易的部署到不同的地理位置:AlwaysOn还打破了镜像只能1对1的限制, ...
My sql之存储过程+游标
sql 实例如下: /**************定义更改car_station_user_acct_his new_balance old_balance存储过程**************/ cr ...
5分钟部署一个Hello World Servlet到CloudFoundry
首先从我的Github下载我写好的hello world Servlet到本地. 安装Maven,然后执行命令行mvn clean install,确保build成功,在项目根目录的target文件夹 ...
Zero to One书摘
之所以叫书摘,是因为翻译不像翻译,书评不像书评,更像是把觉得有意义的部分摘抄下来. 第一章,未来的挑战如何定义未来? 大部分人定义的未来都只是现在的简单延伸而已,其实技术的改变是人们无法预料的. ...
101个MySQL的调节和优化技巧
MySQL是一个功能强大的开源数据库.随着越来越多的数据库驱动的应用程序,人们一直在推动MySQL发展到它的极限.这里是101条调节和优化MySQL安装的技巧.一些技巧是针对特定的安装环境的,但这些思 ...
UVA12897 - Decoding Baby Boos
没必要每次都真的修改一遍字母值,用一个标记表示字母最后的值,最后一遍的时候再进行修改 #include<cstdio> #include<cstring> +; char st ...
Python2 和Python3 的区别
print Python 2中的print语句被Python 3中的print()函数取代,这意味着在Python 3中必须用括号将需要输出的对象括起来. 在Python 2中使用额外的括号也是可以的 ...

GloVe词分布式表示

GloVe 模型介绍

GloVe的推导

如何理解Global

GloVe词分布式表示的更多相关文章

随机推荐

热门专题