Skip-Gram模型

Stanford CS224n的课程资料关于word2vec的推荐阅读里包含Word2Vec Tutorial - The Skip-Gram Model 这篇文章。这里针对此文章作一个整理。

word2vec做了什么事情

从字面意思上来说就是将单词word转为向量vector，通过词向量来表征语义信息。

word2vec模型

这篇文章主要介绍的是Skip-Gram模型，除此之外word2vec还有CBOW模型。

如上图所示，这两种模型的区别就是

Skip-Gram是给定输入词来预测上下文
而CBOW则是给定上下文来预测输入词

那么如何来训练Skip-Gram模型呢？上面这张图使用的句子是："The quick brown fox jumps over the lazy dog."，通过逐一选定句子中的单词作为输入词，将与之相邻的词提取出来，进行学习。图中的窗口大小为2,也即每次向前和向后各看2个词（如果存在的话）。

一些细节

输入参数：通常会将文本中的词进行编码表示，如常见的有将文本库中的单词转换为词汇表，这样可以将每个单词通过one-hot编码表示。比如总共有10000个词，则每个单词最终都可以通过一个10000维向量表示。

如上图所示，网络的输入是一个单词，10000维的one-hot向量，最终输出的结果也是一个10000维的向量，其中的值表示对应的词作为输入词的上下文的概率，也就是说最后输出的是输入词的邻近词的概率分布。

隐藏层

从上面的图也可以看出隐藏层中有300个神经元，也就是说输入词被表示为300维的一个向量。

隐藏层中的权重矩阵大小为10000*300，一个10000维的one-hot输入词通过权重矩阵映射到了一个300维的向量，而这个向量正是所谓的word vector，对应于上图中右边的每一行。

另外值得提的是，如果将110000的输入向量与10000300的权重矩阵作乘积的话，其实效率挺低的。因为one-hot向量中只有1个元素是1，所以不难发现其实结果就是权重矩阵中的某一行。

输出层

在隐藏层中计算得到的300维的向量最终会再经过输出层变为10000维的向量，这里使用的是softmax回归，最终输出的结果所有概率之和为1。

上图展示了输入词为ants，计算输出词为car的概率。

参考

Word2Vec Tutorial - The Skip-Gram Model

Skip-Gram模型的更多相关文章

RNN、LSTM、Seq2Seq、Attention、Teacher forcing、Skip thought模型总结
RNN RNN的发源: 单层的神经网络(只有一个细胞,f(wx+b),只有输入,没有输出和hidden state) 多个神经细胞(增加细胞个数和hidden state,hidden是f(wx+b) ...
Paddle Graph Learning (PGL)图学习之图游走类模型[系列四]
Paddle Graph Learning (PGL)图学习之图游走类模型[系列四] 更多详情参考:Paddle Graph Learning 图学习之图游走类模型[系列四] https://aist ...
Tensorflow 的Word2vec demo解析
简单demo的代码路径在tensorflow\tensorflow\g3doc\tutorials\word2vec\word2vec_basic.py Sikp gram方式的model思路 htt ...
word2vec的Java源码【转】
一.核心代码 word2vec.java package com.ansj.vec; import java.io.*; import java.lang.reflect.Array; import ...
利用 TensorFlow 入门 Word2Vec
利用 TensorFlow 入门 Word2Vec 原创 2017-10-14 chen_h coderpai 博客地址:http://www.jianshu.com/p/4e16ae0aad25 或 ...
DeepLearning.ai学习笔记（五）序列模型 -- week2 自然语言处理与词嵌入
一.词汇表征首先回顾一下之前介绍的单词表示方法,即one hot表示法. 如下图示,"Man"这个单词可以用 \(O_{5391}\) 表示,其中O表示One_hot.其他单词同 ...
DLNg序列模型第二周NLP与词嵌入
1.使用词嵌入给了一个命名实体识别的例子,如果两句分别是“orange farmer”和“apple farmer”,由于两种都是比较常见的,那么可以判断主语为人名. 但是如果是榴莲种植员可能就无法 ...
NLP学习(4)----word2vec模型
一. 原理哈弗曼树推导: https://www.cnblogs.com/peghoty/p/3857839.html 负采样推导: http://www.hankcs.com/nlp/word2v ...
tensorflow在文本处理中的使用——CBOW词嵌入模型
代码来源于:tensorflow机器学习实战指南(曾益强译,2017年9月)——第七章:自然语言处理代码地址:https://github.com/nfmcclure/tensorflow-coo ...
tensorflow在文本处理中的使用——skip-gram模型
代码来源于:tensorflow机器学习实战指南(曾益强译,2017年9月)——第七章:自然语言处理代码地址:https://github.com/nfmcclure/tensorflow-coo ...

随机推荐

Java并发编程笔记之基础总结(二)
一.线程中断 Java 中线程中断是一种线程间协作模式,通过设置线程的中断标志并不能直接终止该线程的执行,而是需要被中断的线程根据中断状态自行处理. 1.void interrupt() 方法:中断线 ...
centos6.10搭建ELK之elasticsearch6.5.4
1.环境准备 1.1.安装java环境版本不要低于java8 # java -version java version "1.8.0_191" Java(TM) SE Runtim ...
让BIND9对任意域名查询都返回固定的IP地址
如何配置BIND9,使得向它发起的所有DNS请求都返回固定的IP地址?通过一些小技巧,可以实现. 下面是一个配置示例: 首先是主配置文件named.conf的配置: zone "." ...
php手撸轻量级开发（二）框架加载
先上图,有图有真相 1. 加载index文件 index文件是整个项目的唯一入口,任何请求进入项目都是走的index,只是带的参数不一样,然后再在index文件里加载其他文件,相当于把其他文件整个复制 ...
流程控制<二>
上一篇:Numbers.Strings.Lists 笔记<一>下一篇:数据结构-Python3.7<三> 如果需要修改迭代中的数据,建议先赋值一个副本(e.g:序列,切片复制的 ...
【Java】XML文件的解析
import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import ja ...
【Spring】4、Spring中 @Autowired标签与 @Resource标签的区别
转自:http://blog.csdn.net/angus_17/article/details/7543478 spring不但支持自己定义的@Autowired注解,还支持由JSR-250规范定义 ...
C#设计模式——简单工厂模式、工厂模式和抽象工厂模式
一:简单工厂模式 1:描述:简单工厂模式是由一个工厂对象根据接收到的消息决定要创建哪一个类的对象事例. 2:优点:工厂类中有相关逻辑判断,可以根据需要动态创建相关的对象事例,而客户端只需要告诉工厂类创 ...
教你分分钟搞定Python之Flask框架
用最短的时间开发一个数据操作接口,Python是王道! 一.安装pip .首先检查linux有没有安装python-pip包,终端执行 pip -V [root@ network-scripts]# ...
java中int和Integer比较大小
Integer是int的封装对象,两个对象==比较的是栈的值 Integer a = new Integer(1); Integer b = new Integer(1); a与b存的是Integer ...