LDA工程实践之算法篇之（一）算法实现正确性验证(转)

研究生二年级实习（2010年5月）开始，一直跟着王益（yiwang）和靳志辉（rickjin）学习LDA，包括对算法的理解、并行化和应用等等。毕业后进入了腾讯公司，也一直在从事相关工作，后边还在yiwang带领下，与孙振龙、严浩等一起实现了一套大规模并行的LDA训练系统——Peacock。受rick影响，决定把自己对LDA工程实践方面的一些理解整理出来，分享给大家，其中可能有一些疏漏和错误，还请批评指正。

Rickjin在《LDA数学八卦》[1]一文中已经对LDA的数学模型以及基本算法介绍得比较充分了，但是在工程实践上，我们还是有一些需要注意的问题，比如：

怎样验证算法实现的正确性？
怎样加速Gibbs sampling？
在线推断（inference）时，需要注意些什么问题？
超参数对模型的影响以及怎样做超参数优化？

本文将涉及以上内容，不包括：LDA并行化和应用，后续会在文章《LDA工程实践之架构篇》和《LDA工程实践之应用篇》中进行介绍。

为了方便大家理解，本文所有数学符号和 [2] 保持一致，具体见表 1。

Table 1: Symbols
1 算法实现正确性验证

在实现机器学习算法的时候，由于数值算法特有的收敛性问题，让这项本来相对简单的工作增加了难度。这其中的典型是多层次神经网络的优化算法——反向传播（Back Propagation，BP）算法，由于神经网络的强大表述能力，即使实现有误，在简单数据实验上，我们可能也发现不了问题。LDA算法的实现较BP简单，工作中我们常采用如下几个方法进行算法正确性的先期验证。

1.1 Toy data实验
Figure 1: KMeans toy data

在实现算法之前，toy data的准备必不可少。Toy data需要尽量简单——纬度低、数据量少，能表述清楚问题即可，这样方便我们实现算法时进行单元测试和调试。比如做KMeans聚类，可以采用2D高斯混合模型生成toy data（见图1，类别数为3）。LDA实现过程中，我们构造的toy data类似表 2（假设模型主题数 K=2），此时模型训练过程中的每一个迭代以及最终模型输出都是可预测的（表 2 数据收敛后，Doc1-3的词赋予的主题应该都是1，Doc4-6的词赋予的主题应该都是2，或者二者主题互换）。

Table 1: LDA toy data

随机算法在开发调试过程中，稳定不变的随机数序列是非常重要的，这样有利于定位问题。获取稳定不变的随机数非常简单，只需要我们额外提供一个伪随机数种子的命令行参数。

1.2 合成实验

算法包最终实现，toy data实验符合预期，此时如果我们想进一步验证LDA算法的效果呢？考虑到LDA是一种生成模型[3]，Griffiths等人[4]在论文中采用合成实验来演示模型的效果，当然，这也可以作为算法正确性的验证。

Figure 2: Griffiths Ground truth

Figure 3: Griffiths Synthesis Experiment [4]

Figure 4: Ground truth

Figure 5: Estimated

合成实验过程中需要用到Dirichlet采样，一般的标准库中没有提供：对c/c++来说，gsl [5] 是不错的选择；对python来说，numpy [6] 有提供实现。

具体到LDA模型，Perplexity计算公式如Eq. 6。训练过程中，计算Perplexity严谨的做法应该使用当前迭代获得的模型在线Inference测试集文档，得到文档的的主题分布后代入Eq. 6，在第三章我们将看到，在线Inference新文档的主题分布也满足
Eq. 3。当然，工程上为了节省计算资源，我们通常就在训练集上计算当前迭代的Perplexity。

LDA模型训练过程中，随着迭代的进行，模型的Perplexity曲线会逐渐收敛。因此，我们通常会根据训练过程中模型的Perplexity曲线是否收敛来判定模型是否收敛。Perplexity曲线收敛性也从侧面可以证明算法实现的正确性。图 6 给出了一次模型训练过程的LogLikelihood和Perplexity曲线（主题数 K=10,000，迭代130左右的曲线突变将在第四章给出解释）。

Figure 6: LogLikelihood and perplexity curve

参考文献

[1] 靳志辉. LDA数学八卦. http://cos.name/2013/03/lda-math-lda-text-modeling.
[2] Gregor Heinrich. Parameter estimation for text analysis. Technical Report, 2009.
[3] Generative model. http://en.wikipedia.org/wiki/Generative_model.
[4] Thomas L. Griffiths, and Mark Steyvers. Finding scientific topics. In PNAS ’2004.
[5] http://www.gnu.org/software/gsl/ … -Distribution.html.
[6] http://docs.scipy.org/doc/numpy/ … dom.dirichlet.html.
[7] Perplexity. http://en.wikipedia.org/wiki/Perplexity.
[8] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent Dirichlet Allocation. In JMLR ’2003.

LDA工程实践之算法篇之（一）算法实现正确性验证(转)的更多相关文章

【算法篇】Bitmap 算法
首先,什么是Bitmap算法(位图算法)呢? 一:定义: Bit map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素.使用Bit为用来存储数据的单位, 可以大大节省存储空间. ...
panguan(判官)：一个自研的任务执行引擎的工程实践
来某厂接近半年了,几乎没写过C++代码,说实话还真的有点手生.最近刚好有一个需求,然而我感觉我也没有办法用C++以外的语言去实现它.于是还是花了几天时间用C++完成编码,这是一个简单的任务执行引擎,它 ...
webpack 从入门到工程实践
from:https://www.jianshu.com/p/9349c30a6b3e?utm_campaign=maleskine&utm_content=note&utm_medi ...
深度学习word2vec笔记之算法篇
深度学习word2vec笔记之算法篇声明: 本文转自推酷中的一篇博文http://www.tuicool.com/articles/fmuyamf,若有错误望海涵前言在看word2vec的资料 ...
我的TDD实践---SVN架设篇
我的TDD实践---SVN架设篇 “我的TDD实践”系列之SVN架设写在前面: 我的TDD实践这几篇文章主要是围绕测试驱动开发所展开的,其中涵盖了一小部分测试理论,更多的则是关注工具的使用及环境的搭 ...
实现求解线性方程（矩阵、高斯消去法）------c++程序设计原理与实践（进阶篇）
步骤: 其中A是一个n*n的系数方阵向量x和b分别是未知数和常量向量: 这个系统可能有0个.1个或者无穷多个解,这取决于系数矩阵A和向量b.求解线性系统的方法有很多,这里使用一种经典的方法——高斯消 ...
编码原则实例------c++程序设计原理与实践（进阶篇）
编码原则: 一般原则预处理原则命名和布局原则类原则函数和表达式原则硬实时原则关键系统原则 (硬实时原则.关键系统原则仅用于硬实时和关键系统程序设计) (严格原则都用一个大写字母R及其编号标 ...
Spring实践系列-入门篇（一）
本文主要介绍了在本地搭建并运行一个Spring应用,演示了Spring依赖注入的特性 1 环境搭建 1.1 Maven依赖目前只用到依赖注入的功能,故以下三个包已满足使用. <properti ...
Appium+python自动化（四十二）-Appium自动化测试框架综合实践- 寿终正寝完结篇（超详解）
1.简介按照上一篇的计划,今天给小伙伴们分享执行测试用例,生成测试报告,以及自动化平台.今天这篇分享讲解完.Appium自动化测试框架就要告一段落了. 2.执行测试用例&报告生成测试报告, ...

随机推荐

又想起Solaris
想起曾几何时,学习的第一个UNIX-like操作系统.只可惜,从来都是在此操作系统上用C语言编程,而没有用过Sun公司的java. 又几何时,Sun公司慢慢不行了.再后来过了几年,Sun公司把Ultr ...
一款代码扫描工具火线！！！！ fireline
1. 在火线官网进行火线相关文件的下载,下载后的文件为fireline.jar 2.运行fireline.jar文件前请先确认系统环境中已安装Java JDK. java-version 查看 3 ...
Wampserver查看php配置信息
Wampserver安装完成之后输入localhost会有欢迎Wampserver界面. [查看php配置信息]:在页面点击"phpinfo()"进入php配置信息页面. [使用p ...
K好数--蓝桥杯
JAVA版K好数--蓝桥杯历经千辛万苦,也算是研究出来了这道题了. 这道题主要运用了动态规划(Dynamic Planning)的思想,何谓动态规划?其实就是将一个大问题分成一个个小问题,然后先通过 ...
SNS团队第七次站立会议（2017.04.28）
一.当天站立式会议照片本次会议主要内容:汇报工作进度,根据完成情况调整进度二.每个人的工作成员今天已完成的工作明天计划完成的工作罗于婕导入相关词库数据研究如何存取语音.图片文件龚晓 ...
java记事本1.2版
功能:实现了新建,打开,保存,退出,复制,剪切,粘贴等功能效果图:
201521123115《Java程序设计》第7周学习总结
1. 本周学习总结以你喜欢的方式(思维导图或其他)归纳总结集合相关内容. 2. 书面作业 1.ArrayList代码分析 1.1 解释ArrayList的contains源代码 1.2 解释E re ...
201521123022 《Java程序设计》第七周学习总结
1. 本周学习总结以你喜欢的方式(思维导图或其他)归纳总结集合相关内容. 2. 书面作业 Q1.ArrayList代码分析 Q1.1 解释ArrayList的contains源代码 ArrayLis ...
201521123004 《Java程序设计》第3周学习总结
1. 本周学习总结 (1)①使用构造函数(constructor) eg:Date now = new Date(); new Date(); //创建了一个Date对象 now是Date类型变量,存 ...
201521123079《java程序设计》第10周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 1.实现多线程的方式: 方式一:继承Thread类 a.自定义类继承Thread类 b.在自定义类中重写ru ...

LDA工程实践之算法篇之（一）算法实现正确性验证(转)

LDA工程实践之算法篇之（一）算法实现正确性验证(转)的更多相关文章

随机推荐

热门专题