LDA主题模型困惑度计算

对于LDA模型，最常用的两个评价方法困惑度（Perplexity）、相似度（Corre）。

其中困惑度可以理解为对于一篇文章d，所训练出来的模型对文档d属于哪个主题有多不确定，这个不确定成都就是困惑度。困惑度越低，说明聚类的效果越好。

计算公式分母是测试集中所有单词之和，即测试集的总长度，不用排重。其中p(w)指的是测试集中每个单词出现的概率，计算公式如下。p(z|d)表示的是一个文档中每个主题出现的概率，就是程序中的.theta文件，p(w|z)表示的是词典中的每一个单词在某个主题下出现的概率，就是程序中的.phi文件。

 1 public void getRe(double[][] phi, double[][] theta){

 2         double count = 0;

 3         int i = 0;

 4         Iterator iterator = userWords.entrySet().iterator();

 5         while(iterator.hasNext()){

 6             Map.Entry entry = (Map.Entry) iterator.next();

 7             ArrayList<String> list = (ArrayList<String>) entry.getValue();

 8             double mul = 0;

 9             for(int j = 0; j < list.size(); j++){

10                 double sum = 0;

11                 String word = list.get(j);

12                 int index = wordMap.get(word);

13                 for (int k = 0; k < K; k++){

14                     sum = sum + phi[k][index] * theta[i][k];

15                 }

16                 mul = mul + Math.log(sum);

17             }

18             count = count + mul;

19             i++;

20         }

21         count = 0 - count;

22         P = Math.exp(count / N);

23         System.out.println("Perplexity:" + P);

对于不同Topic所训练出来的模型，计算它的困惑度。最小困惑度所对应的Topic就是最优的主题数。

LDA主题模型困惑度计算的更多相关文章

计算LDA模型困惑度
http://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%BA%E6%A8%A1 LDA主题模型评估方法--Perplexity http:/ ...
机器学习-LDA主题模型笔记
LDA常见的应用方向: 信息提取和搜索(语义分析):文档分类/聚类.文章摘要.社区挖掘:基于内容的图像聚类.目标识别(以及其他计算机视觉应用):生物信息数据的应用; 对于朴素贝叶斯模型来说,可以胜任许 ...
R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:在自己学LDA主题模型时候,发现该模 ...
Spark：聚类算法之LDA主题模型算法
http://blog.csdn.net/pipisorry/article/details/52912179 Spark上实现LDA原理 LDA主题模型算法 [主题模型TopicModel:隐含狄利 ...
LDA主题模型三连击-入门/理论/代码
目录概况为什么需要 LDA是什么 LDA的应用 gensim应用数学原理预备知识抽取模型样本生成代码编写本文将从三个方面介绍LDA主题模型--整体概况.数学推导.动手实现. 关于LDA ...
[综] Latent Dirichlet Allocation(LDA)主题模型算法
多项分布 http://szjc.math168.com/book/ebookdetail.aspx?cateid=1&&sectionid=983 二项分布和多项分布 http:// ...
理解 LDA 主题模型
前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 ...
通俗理解LDA主题模型
通俗理解LDA主题模型 0 前言印象中,最開始听说"LDA"这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印 ...
LDA主题模型评估方法–Perplexity
在LDA主题模型之后,需要对模型的好坏进行评估,以此依据,判断改进的参数或者算法的建模能力. Blei先生在论文<Latent Dirichlet Allocation>实验中用的是Per ...

随机推荐

ent orm笔记1---快速尝鲜
前几天看到消息Facebook孵化的ORM ent转为正式项目,出去好奇,简单体验了一下,使用上自己感觉比GORM好用,于是打算把官方的文档进行整理,也算是学习一下如何使用. 安装 ent orm 需 ...
从零开始的SpringBoot项目 ( 六 ) 整合 MybatisPlus 实现代码自动生成
1.添加依赖  <dependency> <groupId>mysql</groupId> <artifactI ...
lynx浏览器使用教程
http://www.wocaoseo.com/thread-216-1-1.html LYNX浏览器是谷歌官方推荐的一款文本浏览器,主要用来模拟蜘蛛看到您页面时候的样子,谷歌在网站站长指南中提到: ...
luogu_P3373 solution
luogu_P3373 solution Problme Description Now, you have a known series, there are three operations: ...
力扣Leetcode 面试题51. 数组中的逆序对 - 归并排序
在数组中的两个数字,如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对.输入一个数组,求出这个数组中的逆序对的总数. 示例 1: 输入: [7,5,6,4] 输出: 5 限制: 0 <= ...
jQuery捕获-获取DOM元素内容和属性
一.获取内容 1.text()-设置或返回所选元素的文本内容 2.html()-设置或返回所选元素的内容(包括HTML标记) 3.val()-设置或返回表单字段的值 $(document).read ...
Labview学习之路（二）截屏时弹出来的窗口总是关闭
当屏幕上存在一些弹出来的窗口时,总是会出现一按下截图快捷键那些窗口就关闭的情况,开始我也很苦恼,后来我发现,只要按顺序按下 Ctrl Alt A 就可以让那些窗口不关闭,记住一定 ...
C# Beanstalkd Client
http://bestmike007.com/Beanstalkd.Client/ Other Message Queue http://queues.io
【jmespath】—2. 进阶 List and Slice Projections
Projections翻译的话说实话我也不知道翻成什么比较准确,姑且就叫"投影"吧,不过带来的功能确实非常的强大.好用. 首先,我先说下我的理解: 通配符 * 通配符生成的是一个l ...
hdu6704 2019CCPC网络选拔赛1003 K-th occurrence 后缀数组
题意:给你一个长度为n的字符串,有q个询问,每次询问一个子串s(l,r)第k次出现的位置,若子串出现次数少于k次输出-1. 解题思路:先把SA跑出来,然后对于每次询问可以由l和rank[]找到l在所有 ...

LDA主题模型困惑度计算

LDA主题模型困惑度计算的更多相关文章

随机推荐

热门专题