Word2Vec和LDA的区别与联系

　　Word2vec是目前最常用的词嵌入模型之一。是一种浅层的神经网络模型，他有2种网络结构，分别是CBOW(continues bag of words)和 skip-gram。Word2vec 其实是对”上下文-单词“矩阵进行学习，其中上下文由周围的几个单词组成，由此得到的词向量表示更多的融入了上下文共现的特征。也就是说，如果2个词所对应的Word2vec向量相似度较高，那么他们很可能经常在相同的上下文中出现。

　　LDA（Latent Dirichlet Allocation 隐狄利克雷模型）是主题模型（Topic Models）的一种计算方法。LDA是利用文档中单词的共现关系来对单词按主题聚类，也可以理解为‘文档-单词“矩阵进行分解，得到”文档-主题“和”主题-单词“两个概率分布。

Word2Vec和LDA的区别：

　　1、Word2vec是词聚类，属于词嵌入模型，LDA是主题词聚类，属于主题模型。主题模型和词嵌入模型最大的不同在于其模型本身，主题模型是一种基于概率图模型的生成式模型，其似然函数可以写成若干个条件概率连乘的形式，其中包含需要推测隐含变量（即主题）；词嵌入模型一般表达为神经网络的形式，似然函数定义在网络输出之上。需要通过学习网络的权重以得到单词的稠密向量表示。

　　2、词向量所体现的是语义（semantic）和语法（syntactic）这些 low-level的信息。而LDA的主题词表现的是更 high-level的文章主题（topic）这一层的信息。比如：

　　1）计算词的相似度。同样在电子产品这个主题下，“苹果”是更接近于“三星”还是“小米”？

　　 2）词的类比关系：vector（小米）- vector（苹果）+ vector（乔布斯）近似于 vector（雷军）。

　　 3）计算文章的相似度。这个LDA也能做但是效果不好。而用词向量，即使在文章topic接近的情况下，计算出的相似度也能体现相同、相似、相关的区别。　　反过来说，想用词向量的聚类去得到topic这一级别的信息也是很难的。很有可能，“苹果”和“小米”被聚到了一类，而“乔布斯”和“雷军”则聚到另一类。

Word2Vec和LDA的联系：

　　1、在方法模型上，他们两者是不同的，但是产生的结果从语义上来说，都是相当于近义词的聚类，只不过LDA是基于隐含主题的，WORD2VEC是基于词的上下文的，或者说LDA关注doc和word的共现，而word2vec真正关注的是word和context的共现。

　　2、主题模型通过一定的结构调整可以基于”上下文-单词“矩阵进行主题推理。同样的，词嵌入方法也可以根据”文档-单词“矩阵学习出词的隐含向量表示。

　　3、加入LDA的结果作为word embeddings的输入，可以增强文章分类效果。

参考：

https://blog.csdn.net/qq_29678299/article/details/88727380

http://www.voidcn.com/article/p-sczvqzls-tq.html

https://www.zhihu.com/question/40309730

Word2Vec和LDA的区别与联系的更多相关文章

PCA与LDA的区别与联系
由于涉及内容较多,这里转载别人的博客: http://blog.csdn.net/sunmenggmail/article/details/8071502 其实主要在于:PCA与LDA的变换矩阵不同, ...
理解 LDA 主题模型
前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 ...
通俗理解LDA主题模型（boss）
0 前言看完前面几篇简单的文章后,思路还是不清晰了,但是稍微理解了LDA,下面@Hcy开始详细进入boss篇.其中文章可以分为下述5个步骤: 一个函数:gamma函数四个分布:二项分布.多项分布. ...
我是这样一步步理解--主题模型(Topic Model)、LDA
1. LDA模型是什么 LDA可以分为以下5个步骤: 一个函数:gamma函数. 四个分布:二项分布.多项分布.beta分布.Dirichlet分布. 一个概念和一个理念:共轭先验和贝叶斯框架. 两个 ...
主成分分析(PCA)与线性判别分析(LDA)
主成分分析线性.非监督.全局的降维算法 PCA最大方差理论出发点:在信号处理领域,信号具有较大方差,噪声具有较小方差目标:最大化投影方差,让数据在主投影方向上方差最大 PCA的求解方法: 对样本 ...
NLP获取词向量的方法（Glove、n-gram、word2vec、fastText、ELMo 对比分析）
自然语言处理的第一步就是获取词向量,获取词向量的方法总体可以分为两种两种,一个是基于统计方法的,一种是基于语言模型的. 1 Glove - 基于统计方法 Glove是一个典型的基于统计的获取词向量的方 ...
DSSM：深度语义匹配模型（及其变体CLSM、LSTM-DSSM）
导语在NLP领域,语义相似度的计算一直是个难题:搜索场景下Query和Doc的语义相似度.feeds场景下Doc和Doc的语义相似度.机器翻译场景下A句子和B句子的语义相似度等等.本文通过介绍DSS ...
深度学习解决NLP问题：语义相似度计算
在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度.feeds场景下Doc和Doc的语义相似度.机器翻译场景下A句子和B句子的语义相似度等等.本文通过介绍DSSM.C ...
NLP自然语言处理
转:https://blog.csdn.net/qq_17677907/article/details/86448214 1.有哪些文本表示模型,它们各有什么优缺点? 文本表示模型是研究如何表示文 ...

随机推荐

Kafka入门之consumer
offset存放在_consumer_offsets这个topic下并且从0-49划分了50个分区: consumer会在kafka集群的所有broker中选择一个broker作为consumer ...
C语言const和define的区别
const 定义的是变量不是常量,只是这个变量的值不允许改变是常变量!带有类型.编译运行的时候起作用存在类型检查. define 定义的是不带类型的常数,只进行简单的字符替换.在预编译的时候起作用,不 ...
初学者值得拥有Hadoop单机模式环境搭建
单机模式Hadoop环境搭建 Hadoop环境搭建流程图具体过程文章目录单机模式Hadoop环境搭建 Hadoop环境搭建流程图具体过程 1.搭建准备工作 (1)关闭防火墙 (2)关闭seli ...
小米ICPC第一场自闭记
这次终于找到了靠谱队友,比之前我做不出来==队友做不出来好太多了昨天3人热身赛疯狂杀了8道题,感觉今天稳了一开始就瞅了A题,发现似乎可以dp,看了看数据,1e7,大概想出了nsqrtn算法,想着肯 ...
并发编程实战-J.U.C核心包
J.U.C - AQS java.util.concurrent(J.U.C)大大提高了并发性能,AQS 被认为是 J.U.C 的核心.它核心是利用volatile和一个维护队列. AQS其实就是ja ...
Python中的列表解析和列表推导是一回事吗？
列表解析和列表推导就是一个意思,只是从英文"list comprehension"翻译过来的不同翻译方法. 列表解析就是通过解析表达式从一个可迭代对象生成一个新的列表的Python ...
PyQt(Python+Qt)学习随笔：Designer中ItemViews类部件的frameShadow属性
老猿Python博文目录老猿Python博客地址 frameShadow属性是从QFrame继承的属性,对应类型为QFrame.Shadow,该属性表示框架提供三维效果的阴影类型,有如下取值: 可以 ...
fedora版本如何升级
自动升级 sudo dnf update --refresh # 更新系统包 sudo dnf install dnf-plugin-system-upgrade # 安装系统更新插件 sudo dn ...
《深入理解计算机系统》（CSAPP）读书笔记 —— 第一章计算机系统漫游
本章通过跟踪hello程序的生命周期来开始对计算机系统进行学习.一个源程序从它被程序员创建开始,到在系统上运行,输出简单的消息,然后终止.我们将沿着这个程序的生命周期,简要地介绍一些逐步出现的关键概念 ...
this作为构造函数时注意点
在 JS 中,为了实现类,我们需要定义一些构造函数,在调用一个构造函数的时候加上 new 这个关键字: function Person(name) { this.name = name; consol ...

Word2Vec和LDA的区别与联系

Word2Vec和LDA的区别与联系的更多相关文章

随机推荐

热门专题