我没有在自然语言处理完成。但基于Deep Learning 关注,自然知道一些Word2vec强大。

Word2vec 是google 在2013年提供的一款将词表征为实数值向量的高效工具。而Word2vec输出的词向量可用于做NLP 相关的工作。比方聚类、找同义词、词性分析等。Word2vec 大受欢迎的一个原因是其高效性。
Tomas Mikolov  在[1] 中指出一个优化的单机版本号一天能够训练上千亿词(汗!

)。

关于词的概念。这里的词能够并不一定真的就是单词,全然能够是具有一定意义的单元块,比方国外音乐站点就用word2vec来训练用户的听歌记录。这里的单元块就是歌曲编号。假设用户对音乐类型的喜好是一致的,那么训练后就能找到与某个歌曲相似的歌曲,这样就能给用户进行推荐了。相信类似这种样例还有非常多。

(关于这点思考:词能够使一个标号或者理解为一个类的对象!

先上图:

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaGFuemloYW4xMjM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

个人感觉这个解说的非常具体~

注意:1。 输入为一个窗体的待预測上下文

2. 输入层Wj 是维度为K的列向量,(syn0 编码?)如有 N个输入词。则输入大小为k*N

3. 隐层 Tk 是输入层Wj 的加权,隐层大小为N*k

4. 输出层的叶节点是语料里的词,如红楼梦分词后的独立词

5. 叶节点有唯一的编码。从根节点開始算第一层(二叉树构建算法 Huffman树)

理解非常浅显~

以后持续更新~

參考:

[1]Distributed Representations of Words and Phrases
and their Compositionality
  (经典论文)

[2] Felven----再谈word2vec  (Felven word2vec 系列非常实践)

[3] Felven----关键词聚类

[4] Felven-----红楼梦人物关系

[5] word2vec傻瓜剖析     (个人认为还是先看看Felven的实验后。再看这个比較有感觉点!)

[6] 有道的word2vec 解说  (非常具体。几个DL大牛的关系图非常有意思!

[7] word2vec 代码解说,英文的!

[8]深度学习Word2vec 笔记之算法具体解释!

[9] word2vec 的Windows 编译的版本号

[10] word2vec使用指导 (zhoubl668的博客,有好几篇是介绍Word2vec的,值得推荐。)

[11] Deep Learning in NLP (一)词向量和语言模型 (非常具体!

)

如转载,请标明转自:http://write.blog.csdn.net/postedit/41078835

版权声明:本文博客原创文章,博客,未经同意,不得转载。

Word2vec 讨论的更多相关文章

  1. word2vec 中的数学原理详解

    word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单.高效,因此引起了很多人的关注.由于 word2vec 的作者 Tomas Miko ...

  2. 中英文维基百科语料上的Word2Vec实验

    最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了 ...

  3. 学习Word2vec

    有感于最近接触到的一些关于深度学习的知识,遂打算找个东西来加深理解.首选的就是以前有过接触,且火爆程度非同一般的word2vec.严格来说,word2vec的三层模型还不能算是完整意义上的深度学习,本 ...

  4. (转)word2vec前世今生

    word2vec 前世今生 2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注.首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效 ...

  5. 深度学习word2vec笔记之应用篇

    好不容易学了一个深度学习的算法,大家是否比较爽了?但是回头想想,学这个是为了什么?吹牛皮吗?写论文吗?参加竞赛拿奖吗? 不管哪个原因,都显得有点校园思维了. 站在企业的层面,这样的方式显然是不符合要求 ...

  6. 深度学习word2vec笔记之算法篇

    深度学习word2vec笔记之算法篇 声明:  本文转自推酷中的一篇博文http://www.tuicool.com/articles/fmuyamf,若有错误望海涵 前言 在看word2vec的资料 ...

  7. word2vec原理(二) 基于Hierarchical Softmax的模型

    word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sa ...

  8. word2vec原理(三) 基于Negative Sampling的模型

    word2vec原理(一) CBOW与Skip-Gram模型基础 word2vec原理(二) 基于Hierarchical Softmax的模型 word2vec原理(三) 基于Negative Sa ...

  9. (转)深度学习word2vec笔记之基础篇

    深度学习word2vec笔记之基础篇 声明: 1)该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用 ...

随机推荐

  1. JS脚本加载与执行对性能的影响

    高性能JavaScript-JS脚本加载与执行对性能的影响 在web产品优化准则中,很重要的一条是针对js脚本的加载和执行方式的优化.本篇文章简单描述一下其中的优化准则. 1. 脚本加载优化 1.1 ...

  2. 动画(Animation) 它 (闪烁、左右摇摆、跷跷板等功效)

    一侧到另一侧的影响: (这里显示的是并不那么顺利) 一.续播  (不知道取什么名字好,就是先播放动画A, 接着播放动画B) 有两种方式. 第一种.分别动画两个动画,A和B, 然后先播放动画A,设置A ...

  3. 通过openssh远程登录时的延迟问题解决

    Linux下的ssh 服务器一般用的都是open-ssh,可是发现有些时候通过ssh连接服务器时总会有大概10秒钟左右的延迟. 一开始以为是openssh的安全策略,防止端口扫描,后来发现自己想多了. ...

  4. hdu 4557 非诚勿扰 vector的应用 原来vector 可以删除指定位置元素 不过消耗大

    非诚勿扰 Time Limit: 3000/1000 MS (Java/Others)    Memory Limit: 65535/32768 K (Java/Others) Total Submi ...

  5. add-apt-repository

    也许你早已注意到,我们在介绍软件的时候,在安装这块一般都提供 PPA 源安装方式,这是一种快速方便的软件安装方法,但对于一些新手来说,对 PPA 并不是很熟悉,下面我们就详细介绍一下. # 我们先了解 ...

  6. MVC模型与FishiGUI应用层MVC型号

    MVC概要: MVC (Modal View Controler)M是指数据模型,V是指用户界面,C则是控制器. 使用MVC的目的是将M和V的实现代码分离,从而使同一个程序能够使用不同的表现形式.比方 ...

  7. ios ios7 取消控制拉升

    //推断是否ios7 取消控制拉升 if ([[UIDevice currentDevice].systemVersion doubleValue] >= 7.0) { self.edgesFo ...

  8. Json的反序列化 .net Newtonsoft.Json

    项目中有个.json文件. { "instances": [ { "name": "baidu", "url": &qu ...

  9. 使用 Cordova+Visual Studio 创建跨平台移动应用(2)

    目前开发移动应用有三种模式:Native.Hybird.Web,若要开发跨平台的移动应用,又希望与本地API交互,那么Hybird是一个非常好的选择.       作为一个.Net程序员,可以使用熟悉 ...

  10. freemarker错误七

    1.错误叙述性说明 五月 30, 2014 11:33:57 下午 freemarker.log.JDK14LoggerFactory$JDK14Logger error 严重: Template p ...