关于word2vec我有话要说

写在前面的话：

总结一下使用word2vec一年来的一些经验，因为自己在做的时候，很难在网上搜到word2vec的经验介绍，所以归纳出来，希望对读者有用。

这里不介绍word2vec的原理，因为原理介绍的资料网上很多

最后，由于本人知识有限，错误之处，还望指正。

1 word2vec 是word embedding 最好的工具吗？

word2vec并非是效果最好的word embedding 工具。最容易看出的就是word2vec没有考虑语序，这里会有训练效果损失。

由于 word2vec 训练速度快，易用，google出品等，使得word2vec使用的人多。

训练快是因为 word2vec只有输入层和输出层，砍去了神经网络中，隐藏层的耗时计算（所以word2vec并不算是一个深度学习算法）。另外，阅读word2vec的google的源码，会发现里面有一些提速的trick。如 sigmod函数，采用一次计算，以后查表，减去了大量的重复计算。如词典hash存储，层次softmax等。

易用是因为word2vec 公布了word2vec的代码。在tensorflow,gensim,spark mllib包中都有集成，使用方便。

2 word2vec 训练结果的差异主要来自什么因素？

2.1 语料影响最大语料的场景，比如微博的语料和新闻语料训练的结果差别很大。因为微博属于个人发帖，比较随意。而新闻比较官方正式，另外新闻句式相对复杂。经过训练对比：微博这种短文，训练的相似词更多是同级别的相关词。比如深圳相关的是广州。而用新闻语料，训练得到深圳相关的词更多是与深圳有关联的词，比如深圳大学。

为什么会出现这种情况呢？

因为 word2vec 的原理就是一个词预测前后词或者前后词预测当前词，使得概率最大化。

这就导致如下两个结果：

2.1.1 相似的句子，相同部位的词会相似。

比如句子1 w1 w2 w3 w4 X w5 w6 w7.

句子2 w1 w2 w3 w5 Y w5 w6 w7.

因为 X 的向量受 w1 w2 w3 w4 w5 w6 w7 向量影响决定， Y也是受这几个词影响决定。

所以 X Y 是相似的。

2.1.2 挨着近的词，也是相似的。

比如句子 w1 w2 w3 w4 X Y w5 w6 w7.

这样 X Y 都是受到来自 w1 w2 w3 w4 w5 w6 w7 向量影响决定。

所以X Y是相似的。

所以，微博和新闻的句子的整体分布是不一样的。这里影响结论 2.1.1.

其次，新闻长文多，句式复杂，微博短文多，这里影响结论2.1.2.

2.2 算法参数的影响。

算法参数对总体效果影响不大。相对来说，比较重要的参数有以下

2.2.1 负采样。

负采样越低，对高频词越不利，对低频词有利。可以这么理解，本来高频词词被迭代50次，低频词迭代10次，如果采样频率降低一半，高频词失去了25次迭代，而低频词只失去了5次。一般设置成le-5

2.2. 2 语言模型：skip-gram 和cbow,之前有对比，切词效果偏重各不相同。从效果来看，感觉cbow对词频低的词更有利。这是因为 cbow是基于周围词来预测某个词，虽然这个词词频低，但是他是基于周围词训练的基础上，通过算法来得到这个词的向量。通过周围词的影响，周围词训练的充分，这个词就会收益。

2.2. 3 窗口大小窗口大小影响词和前后多少个词的关系，和语料中语句长度有关，建议可以统计一下语料中，句子长度的分布，再来设置window大小。一般设置成8。

2.2. 4 min-count 最小词频训练阀值，这个根据训练语料大小设置，只有词频超过这个阀值的词才能被训练。

根据经验，如果切词效果不好，会切错一些词，比如 “在深圳”，毕竟切错的是少数情况，使得这种错词词频不高，可以通过设置相对大一点的 min-count 过滤掉切错的词。

2.2. 5 向量维度

如果词量大，训练得到的词向量还要做语义层面的叠加，比如句子的向量表示用词的向量叠加，为了有区分度，语义空间应该要设置大一些，所以维度要偏大。一般情况下200维够用。

2.2. 6 其他参数比如学习率可以根据需要调。

3 word2vec 影响速度的因素有哪些？

3.1 语言模型：cbow 比skip-gram 更快

为什么 cbow更快，很重要的一个原因，cbow是基于周围词来预测这个单词本身。而skip-gram是基于本身词去预测周围词。那么，cbow只要把窗口内的其他词相加一次作为输入来预测一个单词。不管窗口多大，只需要一次运算。而skip-gram直接受窗口影响，窗口越大，需要预测的周围词越多。在训练中，通过调整窗口大小明显感觉到训练速度受到很大影响。

3.2 迭代次数

影响训练次数，语料不够的情况下，可以调大迭代次数。spark 版本有bug，迭代次数超过1，训练得到的词向量维度值超大。

3.3 线程数

单机版（google word2vec)可以通过设置多线程跑,集群版（spark mllib）可以设置多个 partitions.但是从经验来看，在集群上设置partitions 过多，会影响训练的效果。

3.4 其他参数

采样频率影响词的训练频率

min-count 最小词频影响训练词的数量

Window大小影响 skip-gram 的预测次数。

向量维度维度决定了训练过程中计算的维度

4 怎样评估word2vec训练的好坏？

4.1 词聚类可以采用 kmeans 聚类，看聚类簇的分布

4.2词cos 相关性查找cos相近的词

4.3 Analogy对比 a:b 与 c:d的cos距离 (man-king woman-queen )

4.4 使用tnse，pca等降维可视化展示词的分布，推荐用google的tensorboard。另外可以用python的matplotlib。

关于word2vec我有话要说的更多相关文章

word2vec 中的数学原理详解
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单.高效,因此引起了很多人的关注.由于 word2vec 的作者 Tomas Miko ...
Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据
在上篇实现了电影详情和短评数据的抓取.到目前为止,已经抓了2000多部电影电视以及20000多的短评数据. 数据本身没有规律和价值,需要通过分析提炼成知识才有意义.抱着试试玩的想法,准备做一个有关情感 ...
word2vec参数调整及lda调参
一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -neg ...
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
Word2Vec 使用总结
word2vec 是google 推出的做词嵌入(word embedding)的开源工具. 简单的说,它在给定的语料库上训练一个模型,然后会输出所有出现在语料库上的单词的向量表示,这个向量称为&qu ...
Word2vec多线程(tensorflow)
workers = [] for _ in xrange(opts.concurrent_steps): t = threading.Thread(target=self._train_thread_ ...
Word2vec 模型载入(tensorflow)
opts = Options() with tf.Graph().as_default(), tf.Session() as session: model = Word2Vec(opts, sessi ...
Forward-backward梯度求导(tensorflow word2vec实例)
考虑不可分的例子通过使用basis functions 使得不可分的线性模型变成可分的非线性模型最常用的就是写出一个目标函数并且使用梯度下降法来计算梯度的下降法的梯度 ...
Tensorflow word2vec编译运行
Word2vec 更完整版本(非demo)的代码在 tensorflow/models/embedding/ 首先需要安装bazel 来进行编译 bazel可以下载最新的binary安装文件, ...

随机推荐

解决nginx在Linux中已经正常启动，Windows端的浏览器却无法访问的问题
一:查看Linux中nginx已经正常启动二:查看80端口,未被占用三:检查防火墙的问题关闭防火墙:chkconfig iptables off //失败暂时关闭防火墙:service ipt ...
vue如何使用excel导出后台数据
let params = { // 请求参数要下载Excel的id 'id':this.excelId }; //导入的接口名 api_excel_exportExcel().then(res =& ...
学习2周C++的收获
学习2周C++的收获首先,C++是一种实用性很强的程序设计语言.它使用起来灵活.方便,运算符丰富,有结构化的层次…… 那么,我学习这个语言主要是为了参加信息学奥林匹克竞赛,这不仅要熟练地掌握一门语言 ...
Monster Audio 使用教程 (七) 防止声音过大，出现爆音
有用户反映,如果音乐音量过大,会出现爆音. 这其实是音频信号过载了.只要最后输出的音量超过0db,就会出现爆音,这是数字音频都应该注意的问题. 所以,为了解决这个问题,限制器就出现了,它能把音频信号压 ...
methodology of english learning
classify the vocabulary into different catigories syllabus about person
Day15_阿里短信
学于黑马和传智播客联合做的教学项目感谢黑马官网传智播客官网微信搜索"艺术行者",关注并回复关键词"乐优商城"获取视频和教程资料! b站在线视频 1.开通 ...
PHP print() 函数
实例输出一些文本: <?php print "Hello world!"; ?>高佣联盟 www.cgewang.com 定义和用法 print() 函数输出一个或多 ...
vjudge CountTables/2018雅礼集训方阵 dp 斯特林反演
LINK:CountTables 神题! 首先单独考虑行不同的情况设\(f_i\)表示此时有i列且行都不同. 那么显然有 \(f_i=(c^i)^\underline{n}\) 考虑设\(g_i\ ...
C/C++编程笔记：C语言开发球球大作战（源码分享），你想试试吗？
游戏背景 <球球大作战>是Superpop一款自主研du发的免费手机网络游戏. 以玩家间的实时互动PK产生游戏乐趣为设计宗旨,通过简单的规则将玩家操作直接转化为游戏策略,体验智谋碰撞的战斗 ...
5.15 牛客挑战赛40 C 小V和字符串数位dp 计数问题
LINK:小V和字符串容易想到只有1个数相同的才能有贡献. 知道两个01串那么容易得到最小步数大体上就是第一个串的最前的1和第二个串最前的1进行匹配. 容易想到设f[i][j]表示前i位1 ...

关于word2vec我有话要说

关于word2vec我有话要说的更多相关文章

随机推荐

热门专题