Word2Vec 使用总结

word2vec 是google 推出的做词嵌入（word embedding）的开源工具。简单的说，它在给定的语料库上训练一个模型，然后会输出所有出现在语料库上的单词的向量表示，这个向量称为"word embedding"。基于这个向量表示，可以计算词与词之间的关系，例如相似性(同义词等)，语义关联性（中国 - 北京 = 英国 - 伦敦）等。NLP中传统的词表示方法是 one-hot representation，即把每个单词表示成dim维的稀疏向量，dim等于词汇量的大小。这个稀疏向量只有一个维度（该单词的index）上是1，其余全是0。这个表示方法使得单词之间是孤立的。 word embedding则是把单词的表示降维到n维的稠密向量，n<<dim。

作为非NLP专业的人，我不在此讲述word embedding的算法原理，本文是对word2vec工具使用过程的整理与总结，方便大家尽快上手。本文以中文处理为例，Word2vec对语言并没有限制。

安装 word2vec

从它的项目主页上下载源码（或者从我的github上下载 https://github.com/Leavingseason/word2vec 内容是一样的）。源码是linux下的c语言写的，如果要在windows下编译，需要用到Cygwin。Cygwin就是在windows平台上运行类Unix的模拟环境。安装需要几个小时，之后在Cygwin里面编译Word2vec，不需要改任何代码。

如果不想装Cygwin，也可以用Java版本的Word2vec。我fork了一个java版本的实现：https://github.com/Leavingseason/Word2VEC_java 其中MyWord2VEC_java_eclipse.zip是我自己稍微整理的直接在eclipse上可以用的源码。经测试java版的也很好用。

准备语料库

要针对自己的情景，训练适合自己的词嵌入，所以要自己准备一个语料库。我用的是商品点评的语料。如果大家想做实验试试，可以用wiki的中文语料库，参考 http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E6%96%99%E4%B8%8A%E7%9A%84word2vec%E5%AE%9E%E9%AA%8C/comment-page-1 我自己处理了一份中文wiki语料库，已经完成格式化、繁体转简体和分词的过程，下载页面： http://pan.baidu.com/s/1jHZCvvo 格式如下图所示：

对于中文语料，第一步需要分词。现成的工具很多，我喜欢用SnowNLP https://github.com/isnowfy/snownlp ，除了分词，它还提供情感分析，繁体转简体，汉字to拼音等功能。当然现有的其他NLP工具很多，像结巴分词等等。我试用了SnowNLP，感觉效果还挺不错的。

分完词后，把语料库整理成Word2vec的输入格式。这个格式很简单，单词之间用空格隔开就行了。 word2vec 把一个单词的前面和后面的k个单词作为context训练，其中会自动把换行符替换成 </s> ，也就是句子分隔符。

训练word2vec模型

其实在源码目录有一些类似“demo-train-big-model-v1.sh”的脚本，它们就是运行Word2vec工具的示例。它会自动下载一个语料库然后执行。如果我们已经有了语料库，就不用下载了，脚本可以简化很多（Cygwin中运行）：

time ./word2vec -train "data/review.txt" -output "data/review.model" -cbow  -size  -window  -negative  -hs  -sample 1e- -threads  -binary  -iter

-train "data/review.txt" 表示在指定的语料库上训练模型
-cbow 1 表示用cbow模型，设成0表示用skip-gram模型

-size 100 词向量的维度为100

-window 8 训练窗口的大小为8   即考虑一个单词的前八个和后八个单词

-negative 25 -hs 0  是使用negative sample还是HS算法

-sample 1e-4 采用阈值

-threads 20 线程数

-binary 1 输出model保存成2进制

-iter 15 迭代次数

训练还是很快的，在我的1G语料库上训练2小时左右。

使用结果

得到模型后，可以用命令 ./distance data/review.model 测试单词的最近邻。这个要求刚才生成的模型是保存成二进制的。

除了计算距离，还有一些有意思的例子，例如http://www.tuicool.com/articles/RB7fqaB 所写。

如果把模型保存成普通文本型，那么可以得到每个单词的向量表示，使用就灵活了，可以在自己的程序里读取这个model，然后和自由计算各种值。

如果想偷懒的话，就用上述提到的java版程序加载model，然后可以做一系列方法调用。

Word2Vec 使用总结的更多相关文章

word2vec 中的数学原理详解
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单.高效,因此引起了很多人的关注.由于 word2vec 的作者 Tomas Miko ...
Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据
在上篇实现了电影详情和短评数据的抓取.到目前为止,已经抓了2000多部电影电视以及20000多的短评数据. 数据本身没有规律和价值,需要通过分析提炼成知识才有意义.抱着试试玩的想法,准备做一个有关情感 ...
word2vec参数调整及lda调参
一.word2vec调参 ./word2vec -train resultbig.txt -output vectors.bin -cbow 0 -size 200 -window 5 -neg ...
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
Word2vec多线程(tensorflow)
workers = [] for _ in xrange(opts.concurrent_steps): t = threading.Thread(target=self._train_thread_ ...
Word2vec 模型载入(tensorflow)
opts = Options() with tf.Graph().as_default(), tf.Session() as session: model = Word2Vec(opts, sessi ...
Forward-backward梯度求导(tensorflow word2vec实例)
考虑不可分的例子通过使用basis functions 使得不可分的线性模型变成可分的非线性模型最常用的就是写出一个目标函数并且使用梯度下降法来计算梯度的下降法的梯度 ...
Tensorflow word2vec编译运行
Word2vec 更完整版本(非demo)的代码在 tensorflow/models/embedding/ 首先需要安装bazel 来进行编译 bazel可以下载最新的binary安装文件, ...
中英文维基百科语料上的Word2Vec实验
最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了 ...

随机推荐

css中vertical-align垂直居中的认识
目标大纲 1.vertical-align为何不起作用?? vertical-align只钟情于“inline-block内联块级元素/inline元素” vertical-align属性 text- ...
jQuery DateTimePicker 日期控件
在线实例实例演示使用方法 <input id="datetimepicker" type="text" > 复制 $('#datetimepic ...
jQuery静态方法isFunction,isArray,isWindow,isNumeric使用和源码分析
上一篇随笔中总结了js数据类型检测的几个方法和jQuery的工具方法type方法,本篇要分析几个方法都依赖type方法,所以不了解type方法的请先参看http://www.cnblogs.com/y ...
javascript移动设备Web开发中对touch事件的封装实例
在触屏设备上,一些比较基础的手势都需要通过对 touch 事件进行二次封装才能实现.zepto 是移动端上使用率比较高的一个类库,但是其 touch 模块模拟出来的一些事件存在一些兼容性问题,如 ta ...
Android开发6：Service的使用（简单音乐播放器的实现）
前言啦啦啦~各位好久不见啦~博主最近比较忙,而且最近一次实验也是刚刚结束~ 好了不废话了,直接进入我们这次的内容~ 在这篇博文里我们将学习Service(服务)的相关知识,学会使用 Service ...
获得appstore里面app的最新的版本信息，进行版本更新
版本更新有两种方式一种是从服务器获得最新的版本信息和当前app的版本进行比较另外一种是获得appStore上最新的版本信息和当前的app的版本进行比较现在我来说一下如何通过appStore获得最 ...
iOS多线程实现3-GCD
原文链接:http://www.cnblogs.com/mddblog/p/4767559.html 敲下gcd三个字母,搜狗第一条显示居然是“滚床单” ^_^ 一.介绍 GCD,英文全称是Grand ...
Dagger2 (一) 入坑篇
为什么是Dagger2 为了更好的了解Dagger2,请先阅读RoboGuice篇了解依赖注入. 官方文档称,依赖注入这种技术已经在存在多年了,为什么Dagger2要造轮子? Dagger2是第一个全 ...
SQL SERVER 监控数据文件增长情况
在项目前期评估数据库的增长情况,然后根据数据库数据量的增长情况来规划存储的分配其实是一件比较麻烦的事情.因为项目没有上线,用什么来评估数据库的数据增长情况呢? 如果手头没有实际的数据,我们只能从表的数 ...
IP数据报首部解析
IP数据报首部的格式,普通20字节. 4位版本号:当前4--IPv4. 4首部长度:首部长度 8位服务类型TOS: 3bits(优先权)+ 4bits(类型--最小延迟+最大吞吐量+最高可靠性+最小费 ...

Word2Vec 使用总结

Word2Vec 使用总结的更多相关文章

随机推荐

热门专题