Word Embedding与Word2Vec

http://blog.csdn.net/baimafujinji/article/details/77836142

一、数学上的“嵌入”（Embedding）

Embed这个词，英文的释义为, fix (an object) firmly and deeply in a surrounding mass, 也就是“嵌入”之意。例如：One of the bullets passed through Andrea's chest before embedding itself in a wall.

另外，这个词（的分词形式）在数学上也是一个专有名词，Embedding，它广泛存在于包括代数、拓扑与几何等诸多数学领域。它主要表征某个数学结构中的一个实例被包含在另外一个实例中，例如一个group它同时又是一个subgroup。

当我们说某个对象 X 被嵌入到另外一个对象 Y 中, 那么 embedding 就由一个单射的、结构保持的（structure-preserving）映射 f : X → Y 来给定的。此处的结构保持的具体含义要依赖于X 和 Y 是哪种数学结构的实例而定。

举个例子：我们可以把整数“嵌入”进有理数之中。显然，整数是一个group，同时它又是有理数的一个subgroup。整数集合中的每个整数，在有理数集合中都能找到一个唯一的对应（其实就是它本身）。同时，整数集合中的每个整数所具有的性质，在有理数中同样得到了保持。同理，我们也可以把有理数“嵌入”到实数中去。

二、词嵌入（Word Embedding）

前面我们之所以要讨论Embedding在数学上的意思，就是因为这名称其实特别具有一种误导性，尤其是在翻译成中文的时候会令汉语思维下的我们更加难于把握住它的本质。

Word Embedding并不是要把单词像贴瓷砖那样镶嵌进什么地方。更重要的是，我们在把单词嵌入进另外一个空间时，要做到单射和structure-preserving，或者说我们更专注的是映射关系，而最终得到每个单词在另外一个空间中的表达也仅仅是之前设计好的映射关系的很自然的表达。

Word embedding 是NLP中一组语言模型（language modeling）和特征学习技术（feature learning techniques）的总称，这些技术会把词汇表中的单词或者短语（words or phrases）映射成由实数构成的向量上。

最简单的一种Word Embedding方法，就是基于词袋（BOW）的One-Hot表示。这种方法，把词汇表中的词排成一列，对于某个单词 A，如果它出现在上述词汇序列中的位置为 k，那么它的向量表示就是“第 k 位为1，其他位置都为0 ”的一个向量。

例如，有语料库如下：

John likes to watch movies. Mary likes movies too.

John also likes to watch football games.

把上述语料中的词汇表整理出来并排序（具体的排序原则可以有很多，例如可以根据字母表顺序，也可以根据出现在语料库中的先后顺序）

假设我们的词汇表排序结果如下：

{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also":6, "football": 7, "games": 8, "Mary": 9, "too": 10}

那么则有如下word的向量表示：

John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]

likes: [0, 1, 0, 0, 0, 0, 0, 0, 0, 0]

……

此时，你也可以进一步地把文档也表示成向量。方法就是直接将各词的词向量表示加和，于是则有原来的两句话的向量表示如下：

[1, 2, 1, 1, 2, 0, 0, 0, 1, 1]

[1, 1, 1, 1, 0, 1, 1, 1, 0, 0]

One-hot方法很简单，但是它的问题也很明显：

1）它没有考虑单词之间相对位置的关系；

2）词向量可能非常非常长！

针对第一个问题，你可能会想到n-gram方法，这确实是一个策略，但是它可能会导致计算量的急剧增长。因为n-gram已经在之前的文章中解释过了，下面我们来看另外一个方法：共现矩阵 (Cocurrence matrix)。

一个非常重要的思想是，我们认为某个词的意思跟它临近的单词是紧密相关的。这是我们可以设定一个窗口（大小一般是5~10），如下窗口大小是2，那么在这个窗口内，与rests 共同出现的单词就有life、he、in、peace。然后我们就利用这种共现关系来生成词向量。

例如，现在我们的语料库包括下面三份文档资料：

I like deep learning.

I like NLP.

I enjoy flying.

作为示例，我们设定的窗口大小为1，也就是只看某个单词周围紧邻着的那个单词。此时，将得到一个对称矩阵——共现矩阵。因为在我们的语料库中，I 和 like做为邻居同时出现在窗口中的次数是2，所以下表中I 和like相交的位置其值就是2。这样我们也实现了将word变成向量的设想，在共现矩阵每一行（或每一列）都是对应单词的一个向量表示。

虽然Cocurrence matrix一定程度上解决了单词间相对位置也应予以重视这个问题。但是它仍然面对维度灾难。也即是说一个word的向量表示长度太长了。这时，很自然地会想到SVD或者PCA等一些常用的降维方法。当然，这也会带来其他的一些问题，例如，我们的词汇表中有新词加入，那么就很难为他分配一个新的向量。但这并非本文要讨论的重点，我们不再赘述。

三、Word2Vec

我们已经见识了两种词嵌入的方式。而现在最常用、最流行的方法，就是Word2Vec。这是Tomas Mikolov在谷歌工作时发明的一类方法，也是由谷歌开源的一个工具包的名称。具体来说，Word2Vec中涉及到了两种算法，一个是CBOW一个是Skip-Gram。这也是因为深度学习流行起来之后，基于神经网络来完成的Word Embedding方法。

Word2Vec之所以现在这么流行，不同于之前的一些Word Embedding方法，它能够自动实现：1）单词语义相似性的度量；2）词汇的语义的类比。此处，语义的类比，反应的是类似下面这种关系：

“国王” – “王后” ≈ “男” – “女”
“英国” – “伦敦” ≈ “法国” – “巴黎” ≈ “首都”

如果用图形来表示，即如下图所示：

对于Skip-Gram模型来说，它是要Generates each word in context given centre word。如下图所示：

所以总概率定义为：

其中下标denotes position in running text. 对于每个单词而言，则有

对于CBOW模型来说，Condition on context, and generate centre word。如下图所示：

要细抠Skip-Gram和CBOW的话，恐怕还需要很长篇幅和太多细节上的讨论，这一点留待后续文章中再来另行讨论。下面我们将在Python中实际使用一下Word2Vec，这就要简单许多了，因为我们可以直接使用gensim [1]。注意我们用来训练模型的语料库是NLTK中的Brown语料库。实际中要获得更高质量的模型，往往意味着需要更大的语料库，当然这也意味着更多的训练时间。

import gensim, logging, os
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
import nltk
corpus = nltk.corpus.brown.sents()
fname = 'brown_skipgram.model'
if os.path.exists(fname):
# load the file if it has already been trained, to save repeating the slow training step below
model = gensim.models.Word2Vec.load(fname)
else:
# can take a few minutes, grab a cuppa
model = gensim.models.Word2Vec(corpus, size=100, min_count=5, workers=2, iter=50)
model.save(fname)

现在已经得到模型了，接下来我们来评估一下这个模型的质量。我们要评估一下下面这几个词之间的相近（或伴随）程度。

words = "woman women man girl boy green blue did".split()
for w1 in words:
for w2 in words:
print(w1, w2, model.similarity(w1, w2))

输出的结果如下：

woman woman 1.0
woman women 0.3451595268
woman man 0.607956254336
woman girl 0.761190251497
woman boy 0.558522930154
woman green 0.24118403927
woman blue 0.178044251325
woman did 0.0751838683173
women woman 0.3451595268
women women 1.0
women man 0.126646555737
women girl 0.292825346454
women boy 0.298552943639
women green 0.104096393379
women blue 0.0930137564485
women did 0.152766770859
注意：输出内容较长，这里不全部列出，读者可以执行尝试并观察输出结果... ...

当然，你也可能希望有一个更直观的表示，所以不妨试试图形化的结果显示：

import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
M = np.zeros((len(words), len(words)))
for i, w1 in enumerate(words):
for j, w2 in enumerate(words):
M[i,j] = model.similarity(w1, w2)
plt.imshow(M, interpolation='nearest')
plt.colorbar()
ax = plt.gca()
ax.set_xticklabels([''] + words, rotation=45)
ax.set_yticklabels([''] + words)

所绘制的结果如下：

你也可以从词汇表中提取出跟某个单词（例如woman）最相关的k个词：

model.most_similar(positive=['woman'], topn=10)

输出之结果如下：

[('girl', 0.7611901760101318),
('man', 0.6079562902450562),
('lady', 0.6069421768188477),
('boy', 0.5585228800773621),
('child', 0.5556907653808594),
('person', 0.5444432497024536),
('young', 0.5219132900238037),
('pair', 0.5211296081542969),
('she', 0.5175711512565613),
('fellow', 0.5115353465080261)]

现在你也可以试着来玩一下Word2Vec啦！

参考：

[1] https://radimrehurek.com/gensim/

Word Embedding与Word2Vec的更多相关文章

word2vec和word embedding有什么区别?
word2vec和word embedding有什么区别? 我知道这两个都能将词向量化,但有什么区别?这两个术语的中文是什么? from: https://www.zhihu.com/question ...
Word Embedding理解
一直以来感觉好多地方都吧Word Embedding和word2vec混起来一起说,所以导致对这俩的区别不是很清楚. 其实简单说来就是word embedding包含了word2vec,word2ve ...
DeepNLP的核心关键/NLP词的表示方法类型/NLP语言模型 /词的分布式表示/word embedding/word2vec
DeepNLP的核心关键/NLP语言模型 /word embedding/word2vec Indexing: 〇.序一.DeepNLP的核心关键:语言表示(Representation) 二.NL ...
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史（转载）
转载 https://zhuanlan.zhihu.com/p/49271699 首发于深度学习前沿笔记写文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史张 ...
Word Embedding/RNN/LSTM
Word Embedding Word Embedding是一种词的向量表示,比如,对于这样的"A B A C B F G"的一个序列,也许我们最后能得到:A对应的向量为[0.1 ...
建模角度理解word embedding及tensorflow实现
http://www.jianshu.com/p/d44ce1e3ec2f 1. 前言本篇主要介绍关键词的向量表示,也就是大家熟悉的word embedding.自Google 2013 年开源wo ...
GloVe:另一种Word Embedding方法
若想深层地理解GloVe和本文,最好了解SVD, word2vec(skip-gram为主)的相关知识.若仅寻求一种新的word embedding方法,可以不必了解以上前置知识. 一言以蔽之,Glo ...
zz从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么 ...
词向量词嵌入 word embedding
词嵌入 word embedding embedding 嵌入 embedding: 嵌入, 在数学上表示一个映射f:x->y, 是将x所在的空间映射到y所在空间上去,并且在x空间中每一个x有y ...

随机推荐

【BZOJ-3730】震波动态点分治 + 树状数组
3730: 震波 Time Limit: 15 Sec Memory Limit: 256 MBSubmit: 626 Solved: 149[Submit][Status][Discuss] D ...
group by 字符串合并有关问题
group by 字符串合并有关问题 group by 字符串合并问题如下表: TYPE NAME C123 张三 C189 李四 C123 王一 C123 丁丁 C189 刘某查询出如下形式 ...
Android 获取手机信息，设置权限，申请权限，查询联系人，获取手机定位信息
Android 获取手机信息,设置权限,申请权限,查询联系人,获取手机定位信息本文目录: 获取手机信息设置权限申请权限查询联系人获取手机定位信息调用高德地图,设置显示2个坐标点的位置,以及 ...
给Eclipse安装eUML2插件以及可能出现的依赖错误解决方案(转)
eUML2是一款强大的,基于Eclipse应用程序的UML建模工具.开发者可以在UML开发过程中将模型转化为Java代码:确保软件质量和减少开发时间. 必备条件 Java runtime 1.5 or ...
正余弦信号的DFT频谱分析
一般的,对正余弦信号进行採样并DFT运算,画出频谱图,会发现频谱并不干净.这样的现象称为频谱泄漏.由于DFT运算仅仅能是有限序列,突然的截断产生了泄漏. 会有这种特殊情况.当採样截取的刚好是整数个周期 ...
Data transfer from GPIO port to RAM buffer using DMA upon receiving a trigger signal on the timer capture input channel.
Data transfer from GPIO port to RAM buffer using DMA upon receiving a trigger signal on the timer ca ...
JavaScript 实例 | w3cschool菜鸟教程
JavaScript 实例 | w3cschool菜鸟教程 http://www.w3cschool.cc/js/js-examples.html
Revit API取得变量的内参名称
与取得元素变量的内参名称类别有个BuiltInParameter //取得内参名称 [Transaction(TransactionMode.Manual)] [Regeneration(Regene ...
Delphi模拟最小化恢复关闭按纽
https://yq.aliyun.com/wenji/96083 本文讲的是Delphi模拟最小化恢复关闭按纽, 我们做多文档应用程序开发时,如果在主From中指定mainMenu时,在主菜单上右角 ...
lufylegend基础知识1
这是官方的介绍: lufylegend是一个HTML5开源引擎,它实现了利用仿ActionScript3.0的语法进行HTML5的开发, 包含了LSprite,LBitmapData,LBitmap, ...

Word Embedding与Word2Vec

Word Embedding与Word2Vec的更多相关文章

随机推荐

热门专题