转自:http://blog.csdn.net/hxxiaopei/article/details/8034308

http://blog.csdn.net/huagong_adu/article/details/7937616

LDA浅析

http://www.slideshare.net/aurora1625/topic-model-lda-and-all-that

Topic model, LDA and all that

LDA漫游指南

http://yuedu.baidu.com/ebook/d0b441a8ccbff121dd36839a?pn=5&pa=44

LDA相关文章

http://blog.csdn.net/pirage/article/details/9467547

http://blog.csdn.net/yangliuy/article/details/8457329

yangliuy实现的代码

第一篇:PLSA及EM算法

第二篇:LDA及Gibbs Samping

第三篇:LDA变形模型-Twitter LDA,TimeUserLDA,ATM,Labeled-LDA,MaxEnt-LDA等

第四篇:基于变形LDA的paper分类总结(bibliography)

第五篇:LDA Gibbs Sampling 的JAVA实现

DTM(Dynamic Topic Models)进行主题演化实验

---------------------------------------------------------------------------------------------------------

在自己机器上(ubuntu12.04),运行Blei(http://www.cs.princeton.edu/~blei/topicmodeling.html)的代码过程中,能正常编译,

但是运行却遇到 段错误的问题。

  在网上找了很多blog和资料都没有解决

  最后决定自己调试错误,用了用gdb调试工具,

最后在实验室罗师兄的帮助下,解决了这个困扰了很久的问题。

main 文件39行:

代码问题终于得以解决。。。。。。

--------------------------------------------------------------------------------------------------------------------------------------

以下参考自:http://www.cnblogs.com/todoit/p/4057619.html

      程序中dtm/sample.sh文件说明

运行例子试验

(1)输入文件(如dtm/example文件夹所示)test-mult.dat和test-seq.dat

  a:foo-mult.dat,(相当于例子中test-mult.dat)用来表示文档和词的关系

      每个文档一行,每一行形式是: unique_word_count index1:count1 index2:count2 ... indexn:counnt

   该文章的总词数(不重复) 词1编号(用数字表示编号):词1频次 词2编号:词2频次   词n编号:词n频次

   例如:11 288:1 1248:1 5:1 1063:2 269:1 654:1 656:2 532:1 373:1 1247:1 543:1

   表示这篇一共有11个不重复的词,第228个词出现1次,1248个词出现1次,这些词是所有文档中统一编号的。

需要注意的一点是:该文件中文档是按时间顺序排列的,时间最早的在最上面,时间最晚的在最下面。

 
  b:foo-deq.dat ,这文件是用来划分时间窗的。

    文件格式如下:

        Number_Timestamps(时间窗总数)
        number_docs_time_1(第一个时间窗的文档数,就是从第一个到第几个文档划分到第一个时间窗,我们如果按年来划分,就把每年的文档数写到这里就行)
         ...
        number_docs_time_i
        ...
        number_docs_time_NumberTimestamps

作者提供的例子,第一行表示分为10个时间窗,第二行表示第一个时间窗有25个文档。(看样子估计也是按年划分的):

          10
          25
          50
          75
          100
          100
          100
          100
          125
          150
          175

当上面两个文件搞定后。作者说还有两个文件虽然不是必须的,但是也是很有用的。

   C: 词典文件

   文档集合中涉及的所有的词,按照上面的词的序号排列。

d:文档信息文件

   每行表示一个文档的基本信息,按照文档a中的顺序排列。

  上述文件都可以用text2ldac生成,在https://github.com/JoKnopp/text2ldac下载,用python打开。

    使用方法,在命令行中,找到text2ldac.py目录,运行 python text2ldac.py -o ./out -e txt ./in

    out文件夹为输出文件位置,in文件夹为输入文件位置。 txt为仅处理txt文件

  (2)运行程序

   作者在readme文件中说,通过运行./main --help命令可以查看所有选项和解释

输入下面的命令(后面的注释是自己加的,。如果影响运行请去掉)

./main \                /*main函数*/
--ntopics=20 \      /*每个时间窗生成20个主题*/                 
--mode=fit \        /*这个应该有dim和fit两个选项*/     
--rng_seed=0 \
--initialize_lda=true \
--corpus_prefix=example/test \
--outname=example/model_run \
--top_chain_var=0.005 \
--alpha=0.01 \
--lda_sequence_min_iter=6 \
--lda_sequence_max_iter=20 \
--lda_max_em_iter=10

                 

 (2)输出结果。  上面文件完成之后,通过运行程序生成下面的文件,并且可以通过R查看结果,我们就可以用这个结果进行分析。

   a  topic-???-var-e-log-prob.dat:

      主要是 e-betas(词在每个主题内每个时间段的分布),一行是一个词。

      从文件中,我们看以看到每行只有一个数字。

   由输入可知:

      有4824个单词的词典。

      有10个时间戳

      生成20个主题

      a = "topic-002-var-e-log-prob.dat"
    b = matrix(a, ncol = 10 byrow=TRUE)
   10列,按行排(本例中表示4824行,10列的矩阵)
   The probability of term 100 in topic 2 at time 3:
    exp(b[100,3])

      可以在dtm\example\model_run\lda-seq中看到例子,有48240行,有4824个词,每个时间窗内有4824个词。

      作者同时给出了在R中查看这些矩阵的方法。比如查看某个词在某个主题的某一个时间段的概率。

   b gam.dat

gammas数据。表示文档与主题的关联。

http://www.cnblogs.com/todoit/p/3753871.html

《Dynamic Topic Detection and Tracking: A Comparison of HDP, C-Word, and Cocitation Methods》笔记

LDA进阶(Dynamic Topic Models)的更多相关文章

  1. 使用DTM ( Dynamic Topic Models )进行主题演化实验

    最近想研究下Dynamic Topic Models(DTM),论文看了看,文科生的水平确实是看不懂,那就实验一下吧,正好Blei的主页上也提供了相应的C++工具, http://www.cs.pri ...

  2. 概率主题模型简介 Introduction to Probabilistic Topic Models

    此文为David M. Blei所写的<Introduction to Probabilistic Topic Models>的译文,供大家参考. 摘要:概率主题模型是一系列旨在发现隐藏在 ...

  3. 转:概率主题模型简介 --- ---David M. Blei所写的《Introduction to Probabilistic Topic Models》的译文

    概率主题模型简介 Introduction to Probabilistic Topic Models      转:http://www.cnblogs.com/siegfang/archive/2 ...

  4. 《Dynamic Topic Detection and Tracking: A Comparison of HDP, C-Word, and Cocitation Methods》笔记

    原文地址:http://onlinelibrary.wiley.com/doi/10.1002/asi.23134/abstract 黄色背景是我认为比较重要的,红色字体是我自己的话. 动态主题监测与 ...

  5. lda 主题模型--TOPIC MODEL--Gibbslda++结果分析

    在之前的博客中已经详细介绍了如何用Gibbs做LDA抽样.(http://www.cnblogs.com/nlp-yekai/p/3711384.html) 这里,我们讨论一下实验结果: 结果文件包括 ...

  6. 【转】基于LDA的Topic Model变形

    转载自wentingtu 基于LDA的Topic Model变形最近几年来,随着LDA的产生和发展,涌现出了一批搞Topic Model的牛人.我主要关注了下面这位大牛和他的学生:David M. B ...

  7. 基于LDA的Topic Model变形

    转载于: 转:基于LDA的Topic Model变形 最近有想用LDA理论的变形来解决问题,调研中.... 基于LDA的Topic Model变形 基于LDA的Topic Model变形最近几年来,随 ...

  8. [IR] Concept Search and LDA

    重要的是通过实践更深入地了解贝叶斯思想,先浅浅地了解下LDA. From: http://blog.csdn.net/huagong_adu/article/details/7937616/ 传统方法 ...

  9. LDA汇总

    1.Blei的LDA代码(C):http://www.cs.princeton.edu/~blei/lda-c/index.html2.D.Bei的主页:http://www.cs.princeton ...

随机推荐

  1. 在OpenWrt上编写自己的硬件操作程序

    上一篇文章中有写到如何使用OPENWRT的SDK,这里继续,写怎么在上面开发自己的应用程序. 我欲在OpenWrt上编写一个软件,它能够去读取某个AD芯片的多通道采样值. 在看这篇文章之前请看这官方的 ...

  2. cocos2dx对于强大的RichText控制

    最近准备做一个聊天系统,开始准备使用cocos2dx的UIRichText控制显示屏聊天,在使用中发现的结果,cocos2dx的RichText很有限.全然不具备实现聊天的功能.仅仅实现了增加文本.图 ...

  3. 附加没有LDF的数据库文件

    原文:附加没有LDF的数据库文件 如果你只下载了数据文件,没有LDF文件,那么附加的时候选择使用ATTACH_REBUILD_LOG. 命令类似: USE [master] GO CREATE DAT ...

  4. 开启apache服务

    安装后如果需要手动添加Sevice,可以按照如下方法: Apache版本:httpd-2.2.15_win32 Apache Service Monitor 提示:“No services insta ...

  5. 求解轨道力学二体意义下的Lambert方程(兰伯特方程)的Fortran程序

    轨道力学中二体问题下求解兰伯特方程. 老外写的Matlab程序,我把它转成了Fortran程序. !************************************************** ...

  6. WCF Restful Service的服务

    构建基于WCF Restful Service的服务 前言 传统的Asmx服务,由于遵循SOAP协议,所以返回内容以xml方式组织.并且客户端需要添加服务端引用才能使用(虽然看到网络上已经提供了这方面 ...

  7. 创建FTP的Site并用C#进行文件的上传下载

    创建FTP的Site并用C#进行文件的上传下载 文件传输协议 (FTP) 是一个标准协议,可用来通过 Internet 将文件从一台计算机移到另一台计算机. 这些文件存储在运行 FTP 服务器软件的服 ...

  8. 状态机图statechart diagram

    [UML]UML系列——状态机图statechart diagram 系列文章 [UML]UML系列——用例图Use Case [UML]UML系列——用例图中的各种关系(include.extend ...

  9. 基于SQLite日志记录工具--Log4W

    最近压迫自己写点自己的东西,但是水平不高,槽点多,望各位请轻喷,嘿嘿! 以前用过一个Log4Net的东东,但是保存的是文本文件,不好过滤,而且用的不多,也不太熟悉,所以自己也当写一个练练手吧!     ...

  10. sprinfmvc学习--01

    springmvc框架是一个基于请求驱动的web框架,使用了前端控制器模式来设计.根据请求映射规则分发给相应的页面控制器进行处理. 1.  首先用户发送请求-->DispatcherServle ...