如何确定LDA的主题个数

本文参考自：https://www.zhihu.com/question/32286630

　　　LDA中topic个数的确定是一个困难的问题。

　　　当各个topic之间的相似度的最小的时候，就可以算是找到了合适的topic个数。

选取初始K值，得到初始模型，计算各topic之间的相似度
增加或减少K的值，重新训练得到模型，再次计算topic之间的相似度
重复第二步直到得到最优的K

　　另外，Willi Richert ， Luis Pedro Coelho著的《机器学习系统设计》第4章专门讨论了LDA主题模型，其中一节讲了“Choosing the number of topics”。文中提到

One of the methods for automatically determining the number of topics is called
the ** hierarchical Dirichlet process (HDP)**

　　LDA中如何确定topic数量一直都没有公认的好方法，原因在于不同业务对于生成topic的要求是存在差异的。

　　如果LDA的结果是用于某个目标明确的学习任务（比如分类），那么就直接采用最终任务的指标来衡量就好了，能够实现分类效果最好的topic个数就是最合适的。

　　如果没有这样的任务怎么办？业界最常用的指标包括Perplexity，MPI-score等。以我的经验，通过观察Perplexity/MPI-score这些指标随topic个数的变化确实能够帮助我们选择合适的个数值，比如可以找出曲线的拐点。但是这些指标只能作为参考，而不能作为标准。

　　有的业务需要topic之间相互比较独立，那么就可以选择考察topic之间的相关性作为额外的指标。而有的业务可以容忍topic之间存在overlap，但是对topic中词的聚合性要求高，这时候就需要寻找一些聚类的指标做评判标准。

　　最后，肉眼看仍然是我目前发现的最简单有效的方法。　　

　　这个问题在《LDA漫游指南》一书中做了很好的解答，详见第4章第4.2节

topic number K：许多读者问，如何设置主题个数，其实现在没有特别好的办（HDP等较为复杂的模型可以自动确定这个参数，但是模型复杂，计算复杂），

目前只有交叉验证（cross validation），通过设置不同的K值训练后验证比较求得最佳值，我的建议是一开始不要设置太大而逐步增大实验，Blei在论文《Latent Dirichlet Allocation》提出过一个方法，采用设置不同的topic数量，画出topic_number-perplexity曲线；Thomas L. Grifﬁths等人在《Finding scientific topics》也提出过一个验证方法，画出topic_number-logP(w|T)曲线，然后找到曲线中的纵轴最高点便是topic数量的最佳值。有兴趣的读者可以去读读这两篇论文原文的相应部分。这个参数同时也跟文章数量有关，可以通过一个思想实验来验证：设想两个极端情况：如果仅有一篇文章做训练，则设置几百个topic不合适，如果将好几亿篇文章拿来做topic model，则仅仅设置很少topic也是不合适的。

如何确定LDA的主题个数的更多相关文章

LDA概率主题模型
目录 LDA 主题模型几个重要分布模型 Unigram model Mixture of unigrams model PLSA模型 LDA 怎么确定LDA的topic个数? 如何用主题模型解决推 ...
百度开源其NLP主题模型工具包，文本分类等场景可直接使用L——LDA进行主题选择本质就是降维，然后用于推荐或者分类
2017年7月4日,百度开源了一款主题模型项目,名曰:Familia. InfoQ记者第一时间联系到百度Familia项目负责人姜迪并对他进行采访,在本文中,他将为我们解析Familia项目的技术细节 ...
LDA算法 (主题模型算法) 学习笔记
转载请注明出处: http://www.cnblogs.com/gufeiyang 随着互联网的发展,文本分析越来越受到重视.由于文本格式的复杂性,人们往往很难直接利用文本进行分析.因此一些将文本数值 ...
LDA（主题模型算法）
LDA整体流程先定义一些字母的含义: 文档集合D,topic集合T D中每个文档d看作一个单词序列< w1,w2,...,wn >,wi表示第i个单词,设d有n个单词.(LDA里面称之为 ...
[综] Latent Dirichlet Allocation(LDA)主题模型算法
多项分布 http://szjc.math168.com/book/ebookdetail.aspx?cateid=1&&sectionid=983 二项分布和多项分布 http:// ...
文本主题模型之LDA(二) LDA求解之Gibbs采样算法
文本主题模型之LDA(一) LDA基础文本主题模型之LDA(二) LDA求解之Gibbs采样算法文本主题模型之LDA(三) LDA求解之变分推断EM算法(TODO) 本文是LDA主题模型的第二篇, ...
文本主题模型之LDA(一) LDA基础
文本主题模型之LDA(一) LDA基础文本主题模型之LDA(二) LDA求解之Gibbs采样算法文本主题模型之LDA(三) LDA求解之变分推断EM算法(TODO) 在前面我们讲到了基于矩阵分解的 ...
LDA主题模型学习笔记5：C源代码理解
1.说明本文对LDA原始论文的作者所提供的C代码中LDA的主要逻辑部分做凝视,原代码可在这里下载到:https://github.com/Blei-Lab/lda-c 这份代码实现论文<Lat ...
基于gensim的LDA主题模型实现一键式函数打包
def genlda(textlist,n): ticks = str(time.time()).replace('.','')[-6:-1] nn=str(n) dictionary = corpo ...

随机推荐

[android] android 获取网络连接信息
效果图: 工具类 /** * 获取网络连接信息 * * 根据NetworkInfo可以知道有很多的连接方式和信息 * * ① 当没有任何可用网络的时候,networkinfo为null 判断netw ...
C++ 类中的静态成员变量，静态成员函数
//类中的静态成员变量,静态成员函数 #define _CRT_SECURE_NO_WARNINGS #include<iostream> using namespace std; /* ...
004Maven_Pom.xml文档的介绍
很重要的一个文档,具体介绍如下:
实现现下列哪一种接口的对象，并不需要在web.xml文件内进行额外的设定，Servlet容器就能够回应该对象加入HTTP会话所发生的事件？(选择1项)
实现现下列哪一种接口的对象,并不需要在web.xml文件内进行额外的设定,Servlet容器就能够回应该对象加入HTTP会话所发生的事件?(选择1项) A．ServletContextListener ...
php -- PDO异常处理
异常处理: PHP:默认为直接报错 MYSQL:默认为静默模式,错就错,不报错 PDO:默认为静默模式,错就错,不报错以前,当PHP碰到错误的时候,会直接报错,错误处理会变得相当麻烦.后来,当错误发 ...
用 HTML5+ payment方法支付宝支付遇到的坑
用 HTML5+ payment方法碰到的第一个坑就是如果是支付宝的话签约那种支付方式. 因为 Dcloud的文档没有更新的原因你可以看到他们说的都是‘移动支付’,但是你去支付宝平台的时候看到的根本就 ...
【BZOJ2067】[Poi2004]SZN 二分+树上贪心
[BZOJ2067][Poi2004]SZN Description String-Toys joint-stock 公司需要你帮他们解决一个问题. 他们想制造一个没有环的连通图模型. 每个图都是由一 ...
deviceready has not fired after 5 seconds
deviceready has not fired after 5 seconds 建议用手机连上电脑,用真机进行调试:
js访问CSS最终计算样式
所谓计算样式,就是嵌入式样式.外部样式表.内联样式综合的样式表现,那么如何来获取呢? "DOM2 级样式"增强了document.defaultView,提供了getCompute ...
Jquery 中的 event、event.target 和原生JS的 event、event.target 对比
先看下原生的 event,如图: 再看下 Jquery 中的 event,如图: 明显不一样,也符合常理,比较结果: 那么如何把 Jquery 中的 event 转成原生的呢? event.orig ...

如何确定LDA的主题个数

如何确定LDA的主题个数的更多相关文章

随机推荐

热门专题