Word2Vec模型总结

1.Huffman树的构造

解析：给定n个权值作为n个叶子节点，构造一棵二叉树，若它的带权路径长度达到最小，则称这样的二叉树为最优二叉树，也称Huffman树。数的带权路径长度规定为所有叶子节点的带权路径长度之和。Huffman树构造，如下所示：

（1）将看成是有n颗树的森林；

（2）在森林中选出两个根节点的权值最小的树合并，作为一棵新树的左、右子树，且新树的根节点权值为其左、右子树根节点权值之和；

（3）从森林中删除选取的两颗树，并将新树加入森林；

（4）重复（2）（3）步，直到森林中只剩一棵树为止，该树即为所求的Huffman树。

说明：利用Huffman树设计的二进制前缀编码，称为Huffman编码，它既能满足前缀编码条件，又能保证报文编码总长最短。

2.基于Hierarchical Softmax的模型（CBOW模型）

解析：

其中参数的物理意义，如下所示：

（1）

（2）表示路径中第结点对应的编码（根结点不对应编码）

（3）表示路径中第非叶子结点对应的向量

（4）表示从根结点出发到达对应叶子结点的路径。

（5）表示路径中包含结点的个数。

Hierarchical Softmax基本思想，如下所示：

对于word2vec中基于Hierarchical Softmax的CBOW模型，优化的目标函数，如下所示：

这样得到对数似然函数，如下所示：

将花括号中的内容简记为，如下所示：

使用随机梯度上升法对求偏导，如下所示：

的更新方程，如下所示：

使用随机梯度上升法对求偏导，如下所示：

对于词典中每个词的词向量更新方程，如下所示：

3.基于Hierarchical Softmax的模型（Skip-Gram模型）

解析：

其中，表示当前样本的中心词的词向量。
对于word2vec中基于Hierarchical Softmax的Skip-Gram模型，优化的目标函数，如下所示：

Skip-Gram模型中条件概率函数，如下所示：

这样得到对数似然函数，如下所示：

将花括号中的内容简记为，如下所示：

4.基于Negative Sampling的模型（CBOW模型）

Negative Sampling不再使用Huffman树，而是使用随机负采样，能大幅度提高性能。假定已经选好的负样本子集，定义词的标签[正样本为1，负样本为0]，如下所示：

对于给定的正样本，最大化，如下所示：

其中，表示中各词的词向量之和，表示词对应的一个辅助向量，为待训练的参数。简化方程，如下所示：

其中，表示当上下文为时，预测中心词为的概率，同样表示当上下文为时，预测中心词为的概率。
对于给定的语料库，目标函数如下所示：

记，使用随机梯度上升法对求偏导，如下所示：

参数的更新方程，如下所示：

使用随机梯度上升法对求偏导，如下所示：

参数的更新方程，如下所示：

5.基于Negative Sampling的模型（Skip-Gram模型）

对于给定的语料库，目标函数如下所示：

对每一个样本，需要针对中的每一个词进行负采样，但是word2vec源码中只是针对进行了次负采样。它本质上用的还是CBOW模型，只是将原来通过求和累加做整体用的上下文拆成一个一个来考虑。对于给定的语料库，目标函数如下所示：

记。使用随机梯度上升法，对求偏导，如下所示：

的更新方程，如下所示：

使用随机梯度上升法，对求偏导，如下所示：

参数的更新，如下所示：

其中，表示处理词时生成的负样本子集。

6.Negative Sampling算法

（1）带权采样原理
设词典中的每一个词对应一个线段，长度如下所示：

这里表示一个词在语料中出现的次数。现在将这些线段首尾相连地拼接在一起，形成一个长度为1的单位线段。如果随机地往这个单位线段上打点，那么其中长度越长的线段（对应高频词）被打中的概率就越大。

（2）word2vec负采样
记，，这里表示词典中第个词，则以为剖分结点可得到区间上的一个非等距剖分，为其个剖分区间。进一步引入区间上的一个等距离剖分，剖分结点为，其中，具体示意图如下所示：

将内部剖分结点投影到非等距剖分上，则可建立与区间（或）的映射关系，如下所示：

根据映射每次生成一个间的随机整数，就是一个样本。当对进行负采样时，如果采样为，那么就跳过去。

参考文献：

[1]word2vec中的数学原理详解

Word2Vec模型总结的更多相关文章

word2vec模型原理与实现
word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具. gensim包提供了word2vec的python接口. word2vec采用了CBOW(Continuous B ...
wiki中文语料的word2vec模型构建
一.利用wiki中文语料进行word2vec模型构建 1)数据获取到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...
word2vec模型评估方案
1.word2vec参数详解 · sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建.· sg: 用于设置训练算 ...
Word2Vec模型参数详解
用gensim函数库训练Word2Vec模型有很多配置参数.这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需. class gensim.models.word2vec.W ...
【新人赛】阿里云恶意程序检测 -- 实践记录 11.24 - word2vec模型 + xgboost
使用word2vec训练词向量使用word2vec无监督学习训练词向量,输入的是训练数据和测试数据,输出的是每个词的词向量,总共三百个词左右. 求和:然后再将每行数据中的每个词的词向量加和,得到每行 ...
无所不能的Embedding 1 - Word2vec模型详解&代码实现
word2vec是google 2013年提出的,从大规模语料中训练词向量的模型,在许多场景中都有应用,信息提取相似度计算等等.也是从word2vec开始,embedding在各个领域的应用开始流行, ...
NLP学习(4)----word2vec模型
一. 原理哈弗曼树推导: https://www.cnblogs.com/peghoty/p/3857839.html 负采样推导: http://www.hankcs.com/nlp/word2v ...
Word2vec 模型载入(tensorflow)
opts = Options() with tf.Graph().as_default(), tf.Session() as session: model = Word2Vec(opts, sessi ...
word2vec模型cbow与skip-gram的比较
cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法,具体的算法实现细节可以去看word2vec的原理介绍文章.我们这里大体讲下两者的区别,尤其注意在使用当中的不同特点 ...
word2vec + transE 知识表示模型
本文主要工作是将文本方法 (word2vec) 和知识库方法 (transE) 相融合作知识表示,即将外部知识库信息(三元组)加入word2vec语言模型,作为正则项指导词向量的学习,将得到的词向量用 ...

随机推荐

征集 meme
当你每次兴致勃勃地和好友分享自己喜欢的歌但 Ta 不屑一顾 / 不喜欢时:
Unity禁止C#自动编译
基于unity2017\2020版本 using System; using System.Linq; using System.Reflection; using UnityEditor; usin ...
推荐一款“自学编程”的宝藏网站！详解版~（在线编程练习，项目实战，免费Gpt等）
云端源想学习平台,一站式编程服务网站云端源想官网传送门精品课程:由项目实战为导向的视频课程,知识点讲解配套编程练习,让初学者有方向有目标. 课程阶段:每门课程都分多个阶段进行,由浅入深,很适合零基础 ...
Unity3D 选择焦点切换
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
MySQL查看数据库性能常用命令和实战教学
MySQL查看数据库性能常用命令 # 列出MySQL服务器运行各种状态值 show global status; # 查询MySQL服务器配置信息语句 show variables; # 慢查询 sh ...
沫沫漫画网Js逆向分析爬取全站资源入库处理图片合并
网站分析打开目标网站:https://www.momomh.com/ 选择一部漫画作为分析对象:<渴望:爱火难耐> 进到漫画详情页这里,发现并没有需要逆向分析.直接可以获取漫画信息.随便 ...
鸿蒙开发学习（一）之ArkTS
目录 TypeScript语法基础 module ArkTS 基本UI描述基本概念状态管理页面级变量的状态管理 @State @Prop @Link 应用级变量的状态管理开发入门应用模型 ...
.net 温故知新【13】：Asp.Net Core WebAPI 缓存
一.缓存缓存指在中间层中存储数据的行为,该行为可使后续数据检索更快. 从概念上讲,缓存是一种性能优化策略和设计考虑因素. 缓存可以显著提高应用性能,方法是提高不常更改(或检索成本高)的数据的就绪性. ...
HBuilderx 创建、运行uniapp项目
uni-app官网介绍的通过 HBuilderX 可视化界面跟着小颖来创建一个自己的小程序创建小程序依次点击HBuilderx 左上方的按钮:文件->新建->项目然后打开该界面, ...
Element的安装与基本使用
一.什么是Element? Element是饿了么团队研发的一套为开发者与设计师等准备的基于Vue2.0的桌面端组件库,使开发人员可以快速拼凑出一套页面组件:组成网页的部件,例如:超链接,按钮,图片 ...

Word2Vec模型总结

Word2Vec模型总结的更多相关文章

随机推荐

热门专题