1.Huffman树的构造

解析:给定n个权值作为n个叶子节点,构造一棵二叉树,若它的带权路径长度达到最小,则称这样的二叉树为最优二叉树,也称Huffman树。数的带权路径长度规定为所有叶子节点的带权路径长度之和。Huffman树构造,如下所示:

(1)将看成是有n颗树的森林;

(2)在森林中选出两个根节点的权值最小的树合并,作为一棵新树的左、右子树,且新树的根节点权值为其左、右子树根节点权值之和;

(3)从森林中删除选取的两颗树,并将新树加入森林;

(4)重复(2)(3)步,直到森林中只剩一棵树为止,该树即为所求的Huffman树。

说明:利用Huffman树设计的二进制前缀编码,称为Huffman编码,它既能满足前缀编码条件,又能保证报文编码总长最短。

2.基于Hierarchical Softmax的模型(CBOW模型)

解析:

其中参数的物理意义,如下所示:

(1)

(2)表示路径中第结点对应的编码(根结点不对应编码)

(3)表示路径中第非叶子结点对应的向量

(4)表示从根结点出发到达对应叶子结点的路径。

(5)表示路径中包含结点的个数。

Hierarchical Softmax基本思想,如下所示:

对于word2vec中基于Hierarchical Softmax的CBOW模型,优化的目标函数,如下所示:

这样得到对数似然函数,如下所示:

将花括号中的内容简记为,如下所示:

使用随机梯度上升法对求偏导,如下所示:

的更新方程,如下所示:

使用随机梯度上升法对求偏导,如下所示:

对于词典中每个词的词向量更新方程,如下所示:

3.基于Hierarchical Softmax的模型(Skip-Gram模型)

解析:

其中,表示当前样本的中心词的词向量。
对于word2vec中基于Hierarchical Softmax的Skip-Gram模型,优化的目标函数,如下所示:

Skip-Gram模型中条件概率函数,如下所示:

这样得到对数似然函数,如下所示:

将花括号中的内容简记为,如下所示:

4.基于Negative Sampling的模型(CBOW模型)

Negative Sampling不再使用Huffman树,而是使用随机负采样,能大幅度提高性能。假定已经选好的负样本子集,定义词的标签[正样本为1,负样本为0],如下所示:

对于给定的正样本,最大化,如下所示:

其中,表示中各词的词向量之和,表示词对应的一个辅助向量,为待训练的参数。简化方程,如下所示:

其中,表示当上下文为时,预测中心词为的概率,同样表示当上下文为时,预测中心词为的概率。
对于给定的语料库,目标函数如下所示:

记,使用随机梯度上升法对求偏导,如下所示:

参数的更新方程,如下所示:

使用随机梯度上升法对求偏导,如下所示:

参数的更新方程,如下所示:

5.基于Negative Sampling的模型(Skip-Gram模型)

对于给定的语料库,目标函数如下所示:

对每一个样本,需要针对中的每一个词进行负采样,但是word2vec源码中只是针对进行了次负采样。它本质上用的还是CBOW模型,只是将原来通过求和累加做整体用的上下文拆成一个一个来考虑。对于给定的语料库,目标函数如下所示:

记。使用随机梯度上升法,对求偏导,如下所示:

的更新方程,如下所示:

使用随机梯度上升法,对求偏导,如下所示:

参数的更新,如下所示:

其中,表示处理词时生成的负样本子集。

6.Negative Sampling算法

(1)带权采样原理
设词典中的每一个词对应一个线段,长度如下所示:

这里表示一个词在语料中出现的次数。现在将这些线段首尾相连地拼接在一起,形成一个长度为1的单位线段。如果随机地往这个单位线段上打点,那么其中长度越长的线段(对应高频词)被打中的概率就越大。

(2)word2vec负采样
记,,这里表示词典中第个词,则以为剖分结点可得到区间上的一个非等距剖分,为其个剖分区间。进一步引入区间上的一个等距离剖分,剖分结点为,其中,具体示意图如下所示:

将内部剖分结点投影到非等距剖分上,则可建立与区间(或)的映射关系,如下所示:

根据映射每次生成一个间的随机整数,就是一个样本。当对进行负采样时,如果采样为,那么就跳过去。

参考文献:

[1]word2vec中的数学原理详解

Word2Vec模型总结的更多相关文章

  1. word2vec模型原理与实现

    word2vec是Google在2013年开源的一款将词表征为实数值向量的高效工具. gensim包提供了word2vec的python接口. word2vec采用了CBOW(Continuous B ...

  2. wiki中文语料的word2vec模型构建

    一.利用wiki中文语料进行word2vec模型构建 1)数据获取 到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...

  3. word2vec模型评估方案

    1.word2vec参数详解 · sentences:可以是一个·ist,对于大语料集,建议使用BrownCorpus,Text8Corpus或·ineSentence构建.· sg: 用于设置训练算 ...

  4. Word2Vec模型参数 详解

    用gensim函数库训练Word2Vec模型有很多配置参数.这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需. class gensim.models.word2vec.W ...

  5. 【新人赛】阿里云恶意程序检测 -- 实践记录 11.24 - word2vec模型 + xgboost

    使用word2vec训练词向量 使用word2vec无监督学习训练词向量,输入的是训练数据和测试数据,输出的是每个词的词向量,总共三百个词左右. 求和:然后再将每行数据中的每个词的词向量加和,得到每行 ...

  6. 无所不能的Embedding 1 - Word2vec模型详解&代码实现

    word2vec是google 2013年提出的,从大规模语料中训练词向量的模型,在许多场景中都有应用,信息提取相似度计算等等.也是从word2vec开始,embedding在各个领域的应用开始流行, ...

  7. NLP学习(4)----word2vec模型

    一. 原理 哈弗曼树推导: https://www.cnblogs.com/peghoty/p/3857839.html 负采样推导: http://www.hankcs.com/nlp/word2v ...

  8. Word2vec 模型载入(tensorflow)

    opts = Options() with tf.Graph().as_default(), tf.Session() as session: model = Word2Vec(opts, sessi ...

  9. word2vec模型cbow与skip-gram的比较

    cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法,具体的算法实现细节可以去看word2vec的原理介绍文章.我们这里大体讲下两者的区别,尤其注意在使用当中的不同特点 ...

  10. word2vec + transE 知识表示模型

    本文主要工作是将文本方法 (word2vec) 和知识库方法 (transE) 相融合作知识表示,即将外部知识库信息(三元组)加入word2vec语言模型,作为正则项指导词向量的学习,将得到的词向量用 ...

随机推荐

  1. 实战0-1,Java开发者也能看懂的大模型应用开发实践!!!

    前言 在前几天的文章<续写AI技术新篇,融汇工程化实践>中,我分享说在RAG领域,很多都是工程上的实践,做AI大模型应用的开发其实Java也能写,那么本文就一个Java开发者的立场,构建实 ...

  2. 01-spfile和pfile的区别,生成,加载和修复

    oracle数据库的配置文件指的是系统在启动到"nomount"阶段需要加载的文件,也叫做pfile或者spfile,但是其实pfile和spfile是不同的文件. 不同的数据库配 ...

  3. C++中const和constexpr的多文件链接问题

    C++语言支持分离编译,在多文件编程中:变量或函数可以被声明多次,但却只能被定义一次.如果要在多个文件中使用同一个变量,变量的定义能且只能出现在一个文件中,在其他使用该变量的文件中需要声明该变量.如果 ...

  4. 联想think服务器centos系统安装

    一.前言 本以为安装服务器是一件轻松顺利的事,没想到一安就是两天- 二.错误列表 1.硬件系统不兼容低版本centos 刚开始安装centos6.8的操作系统总是无法找到配置好的raid阵列导致无法安 ...

  5. 【前端开发】基于vue+elemnt-ui流程图设计器解决方案

    前言 越来越多的企业都在研发低代码平台,其中流程引擎是核心之一,拥有一个可以拖拽设计审批流程的设计器是相当重要的. 介绍 审批流程设计器是一种工具,用于创建和设计审批流程.它通常是一个可视化的设计器界 ...

  6. 2022-10-22 CSP赛前隔离时的模拟赛 2:3

    T1 简单红题,不懈于写. 锐评:镜子反射出来的竟然没有镜像一下. T2 坑人东西调了 2h. 类似于 round1 的 T4. 线性 \(\Theta(n)\) 过. T3 T4 其实简单,负边权要 ...

  7. 2022-10-22 CSP赛前隔离时的模拟赛 1:3

    T1 一个比较迷的数论题,推柿子. 首先能得到基础柿子: \[m\cdot x + \frac{m(m-1)\cdot y}{2} = n \] 略微化简得: \[2x + (m-1)y = \fra ...

  8. k 分算法是 k 越大越好吗?

    引入 我们有二分算法,就是: 定义 二分查找(英语:binary search),也称折半搜索(英语:half-interval search).对数搜索(英语:logarithmic search) ...

  9. 实战攻防演练-WinRar压缩包创建自解压木马

    前言 在攻防演练中,钓鱼攻击通常采用社会工程学手段,通过伪装成可信的来源,引导用户点击恶意链接或下载恶意文件,进而实现攻击.而使用压缩包自解压技术可以在一定程度上提高攻击成功率.其中包含的自解压木马就 ...

  10. Ubuntu下安装多个JDK,并设置其中一个为默认JDK

    由于使用需要,要在机器上同时安装OpenJDK 8和11,并将8设置为默认JDK 首先安装OpenJDK sudo apt-get install openjdk-8-jdk sudo apt-get ...