推荐系统实践 0x13 Word2Vec
Word2Vec是谷歌团队提出的,让词向量在自然语言处理当中再度流行,并且推广到了广告、搜索、推荐等各个领域当中。Word2Vec顾名思义,就是一个生成对词的向量表达的模型。假设我们使用一组句子组成的语料库作为训练数据,其中一句长度为\(T\)的句子为\(w_1,w_2,...,w_T\),假设每个词都与最相邻的词关系最为密切。那么这种密切的关系可以分为两种:
- CBOW。 每个词都是由相邻的词决定的。cbow输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量,即先验概率。
- Skip-gram。每个词都都决定了相邻的词。Skip-Gram模型和CBOW的思路是反着来的,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量,即后验概率。
这里借用一下参考图示:

不过从经验上来讲,Skip-gram效果要好一些。
训练过程
假如我们选取了\(2c+1\)长度的滑动窗口,从语料库中抽取一个句子然后从左到右不断滑动窗口。每移动一次,窗口中的词就形成了一个训练样本。有了训练样本,我们就可以定义优化目标。以Skip-gram为例,每个词\(w_t\)都决定了相邻词\(w_{t+j}\),基于极大似然估计的方法,我们希望所有样本的条件概率\(p(w_{t+j}|w_t)\)之积最大,我们使用对数概率来表示目标函数为
\]
那么我们如何定义条件概率\(p(w_{t+j}|w_t)\)呢?在多分类问题当中,通常使用softmax函数。我们希望,通过词向量的向量表示,可以用内积直观的表示出语义的接近程度。那么我们可以用\(w_o\)代表\(w_{t+j}\),也就是输出词;用\(w_i\)表示\(w_t\),也就是输入词。
\]
我们容易忽略一个事实,那就是输入词和输出词的向量表达并不在一个向量空间当中,输入向量表达和输出向量表达可以用如下图来表示:

在这里,输入向量表达就是输入层到隐层的权重矩阵\(W_{v\times N}\),而输出向量表达就是隐层到输出层的权重矩阵\(W'_{Nt\times V}\)。由于输入向量一般是one-hot形式的向量,那么输入向量矩阵\(W_{v\times N}\)的每一行对应的权重向量就是同样意义上的“词向量”,它也可以被看做是一个查找表,如如数向量是10000词的one-hot向量,隐层维度为300,那么输入层到隐层的权重向量为\(10000\times 300\)。在转化为词向量的查找表之后,每行的权重变成了对应词的Embedding向量。
负采样
由于语料库中的词数量巨大,对每个词都要预测误差是巨大的计算量,因此,为了减轻训练复旦,往往采用负样本的方法进行训练,也就是需要对采样出的几个负样本进行计算预测误差。从多分类问题退化成了一个近似二分类问题。如下所示:
\]
\(v'_{w_o}\)是输出词向量(正样本),而\(W_{neg}\)是负样本集合,\(v'_{w_j}\)是负样本词向量,由于负样本集合的大小非常有限,通常来说小于10,在每次梯度下降爹地啊过程中,计算复杂度可以缩小为原来的1/1000(假设词表为10000)。
参考
cbow与skip-gram
(二)通俗易懂理解——Skip-gram和CBOW算法原理
推荐系统实践 0x13 Word2Vec的更多相关文章
- 协同滤波 Collaborative filtering 《推荐系统实践》 第二章
利用用户行为数据 简介: 用户在网站上最简单存在形式就是日志. 原始日志(raw log)------>会话日志(session log)-->展示日志或点击日志 用户行一般分为两种: 1 ...
- zz京东电商推荐系统实践
挺实在 今天为大家分享下京东电商推荐系统实践方面的经验,主要包括: 简介 排序模块 实时更新 召回和首轮排序 实验平台 简介 说到推荐系统,最经典的就是协同过滤,上图是一个协同过滤的例子.协同过滤主要 ...
- 推荐系统实践 0x07 基于邻域的算法(2)
基于邻域的算法(2) 上一篇我们讲了基于用户的协同过滤算法,基本流程就是寻找与目标用户兴趣相似的用户,按照他们对物品喜好的对目标用户进行推荐,其中哪些相似用户的评分要带上目标用户与相似用户的相似度作为 ...
- 推荐系统实践 0x0b 矩阵分解
前言 推荐系统实践那本书基本上就更新到上一篇了,之后的内容会把各个算法拿来当专题进行讲解.在这一篇,我们将会介绍矩阵分解这一方法.一般来说,协同过滤算法(基于用户.基于物品)会有一个比较严重的问题,那 ...
- 推荐系统实践 0x09 基于图的模型
用户行为数据的二分图表示 用户的购买行为很容易可以用二分图(二部图)来表示.并且利用图的算法进行推荐.基于邻域的模型也可以成为基于图的模型,因为基于邻域的模型都是基于图的模型的简单情况.我们可以用二元 ...
- 推荐系统实践 0x12 什么是Embedding
做过深度学习的小伙伴,大家应该多多少少都听说过Embedding,这么火的Embedding到底是什么呢?这篇文章就用来介绍Embedding.另外,基于深度学习的推荐系统方法或者论文还没有结束,我打 ...
- Spark推荐系统实践
推荐系统是根据用户的行为.兴趣等特征,将用户感兴趣的信息.产品等推荐给用户的系统,它的出现主要是为了解决信息过载和用户无明确需求的问题,根据划分标准的不同,又分很多种类别: 根据目标用户的不同,可划分 ...
- 基于Neo4j的个性化Pagerank算法文章推荐系统实践
新版的Neo4j图形算法库(algo)中增加了个性化Pagerank的支持,我一直想找个有意思的应用来验证一下此算法效果.最近我看Peter Lofgren的一篇论文<高效个性化Pagerank ...
- 推荐系统实践 0x05 推荐数据集MovieLens及评测
推荐数据集MovieLens及评测 数据集简介 MoiveLens是GroupLens Research收集并发布的关于电影评分的数据集,规模也比较大,为了让我们的实验快速有效的进行,我们选取了发布于 ...
随机推荐
- golang拾遗:嵌入类型
这里是golang拾遗系列的第三篇,前两篇可以点击此处链接跳转: golang拾遗:为什么我们需要泛型 golang拾遗:指针和接口 今天我们要讨论的是golang中的嵌入类型(embedding t ...
- .NET 内存泄漏的争议
前几天发布了几篇关于要小心使用 Task.Run 的文章,看了博客园的所有评论.发现有不少人在纠结示例中的现象是不是属于内存泄漏,本文分享一下我个人的看法,大家可以保留自己的意见. 在阅读本文前,如果 ...
- 题解 CF830D Singer House
\(\texttt{Solution}\) 首先考虑 \(\texttt{dp}\) 维护题目要求的深度为 \(i\), 每个节点最多经过一次的不同有向路径数量 \(f_i\). 明显的,只维护这个东 ...
- uniapp计算属性的使用
计算属性,也可称为动态属性,在uniapp中有两种写法: 第一种:直接返回一个计算的值,该计算属性为函数类型 computed:{ kh_score(){ var list = this.taskLi ...
- emlog仿小刀网模板附文章
附带了几百篇文章,搭建出来非常漂亮,喜欢的可以下载一份看看!下载地址:https://lengleng.lanzous.com/iNQayezebsh
- vscode 编辑python文件
1 安装python 自动姿势 Chinese # 换成中文 path Autocomplete 路径自动补全 Vetur vue文件补全 配置文件 首选项-设置 应用程序 在 seyying.jso ...
- create-react-app 基于ts项目,使用react-router-dom搭建项目
准备工作 来个react项目 create-react-app 基于TS的项目 ts项目安装后 删除node_modules,重新 yarn install, 不然jsx会报错 安装React-rou ...
- kali2020创建root用户
自kali更新到2020版后,默认取消了root用户的登录权限.只能用普通用户登录,这样做的优点在于对于kali的新手,在不懂的部分命令的情况下对系统的损害有所降低,也就说安全性提高了.但是普通用户权 ...
- 初级程序需要掌握的SQL(一)
之前我也是,是一个看视频学习的小白,以前老是喜欢通宵看视频,一天10小时小时的学习量,一点效率都没有,就想写一个博客,来帮助大家回顾的SQL语句, 因为我也是初级,所以名字就叫初级程序员需要掌握的sq ...
- Python基础编程——数据类型
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理 在程序设计和编程中,会涉及到各种各样的数据类型,而不同的数据类型变量之间可以进行的运算是不同的.在p ...