机器学习-LDA主题模型笔记

LDA常见的应用方向：

　　信息提取和搜索(语义分析)；文档分类/聚类、文章摘要、社区挖掘；基于内容的图像聚类、目标识别(以及其他计算机视觉应用)；生物信息数据的应用;

对于朴素贝叶斯模型来说，可以胜任许多文本分类问题，但无法解决语料中一词多义和多词一义的问题--它更像是词法分析，而非语义分析。如果使用词向量作为文档的特征，一词多义和多词一义会造成计算文档间相似度的不准确性。LDA模型通过增加“主题”的方式，一定程度的解决上述问题：

　　一个词可能被映射到多个主题中，即，一词多义。多个词可能被映射到某个主题的概率很高，即，多词一义。

LDA涉及的主要问题

1）共轭先验分布

2）Dirichlet分布

3）LDA模型

　　Gibbs采样算法学习参数

共轭先验分布

　　由于x为给定样本，P(x)有时被称为“证据”，仅仅是归一化因子，如果不关心P(θ|x)的具体值，只考察θ取何值时后验概率P(θ|x)最大，则可将分母省去。

　　在贝叶斯概率理论中，如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律，那么，先验分布和后验分布被叫做共轭分布，同时，先验分布叫做似然函数的共轭先验分布。

Dirichlet分布

　　在学习Dirichlet分布之前先复习以下二项分布的最大似然估计：

　　投硬币试验中，进行N次独立试验，n次朝上，N-n次朝下。假定朝上的概率为p，使用对数似然函数作为目标函数：

上述过程的理论解释　

　　投掷一个非均匀硬币，可以使用参数为θ的伯努利模型，θ为硬币为正面的概率，那么结果x的分布形式为：

　　两点分布/二项分布的共轭先验是Beta分布，它具有两个参数α和β，Beta分布形式为

先验概率和后验概率的关系

　　根据似然和先验：

　　计算后验概率：

　　后验概率是参数为(k+α,n-k+β)的Beta分布，即：伯努利分布/二项分布的共轭先验是Beta分布。

　　参数α、β是决定参数θ的参数，即超参数。

　　在后验概率的最终表达式中，参数α、β和k、n-k一起作为参数θ的指数——后验概率的参数为(k+α,n-k+β)。

　　根据这个指数的实践意义：投币过程中，正面朝上的次数，α和β先验性的给出了在没有任何实验的前提下，硬币朝上的概率分配；因此，α和β可被称作“伪计数”。

共轭先验的直接推广

从2到K：二项分布→多项分布，Beta分布→Dirichlet分布

Dirichlet分布

　　复习—Beta分布中的B(α,β)的表示：

　　Dirichlet分布：

Dirichlet分布的期望

根据Beta分布的期望公式：

推广得到：

Dirichlet分布分析

　　α是参数向量，共K个，定义在x₁,x₂…x_K-1维上：

　　x₁+x₂+…+x_K-1+x_K=1

　　x₁,x₂…x_K-1>0

　　定义在(K-1)维的单纯形上，其他区域的概率密度为0

对称Dirichlet分布

　　α=1时，退化为均匀分布

　　α>1时，p₁=p₂=...=p_k的概率增大

　　α<1时，p_i=1,p_¬i=0的概率增大

　　多项分布的共轭分布是Dirichlet分布

　　调参经验传授：做LDA的时候，在条件允许的情况下，α值尽量不要设置太大，这样做的好处是充分考虑样本的因素，而不要过分考虑先验参数的影响。
当然，如果先验给的大，就是更多考虑先验，而不是样本。这需要充分根据实际情况决定，如果说我们认为样本的情况是重要的，就不要加入太大的先验。

LDA的解释

　　1）共有m篇文章，一共涉及了K个主题；

　　2）每篇文章(长度为Nm)都有各自的主题分布，主题分布是多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为α；

　　3）每个主题都有各自的词分布，词分布为多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为β；

　　4）对于某篇文章中的第n个词，首先从该文章的主题分布中采样一个主题，然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程，直到m篇文章全部完成上述过程。

　　详细解释：此段非常有利于理解LDA主题模型

　　1）字典中共有V个term(不可重复)，这些term出现在具体的文章中，就是word——在具体某文章中的word当然是有可能重复的。

　　2）语料库中共有m篇文档d₁,d₂…d_m；

　　3）对于文档d_i，由N_i个word组成，可重复；

　　4）语料库中共有K个主题T₁，T₂…T_k；

　　5）α和β为先验分布的参数，一般事先给定：如取0.1的对称Dirichlet分布——表示在参数学习结束后，期望每个文档的主题不会十分集中。

　　6）θ是每篇文档的主题分布

　　　　　　对于第i篇文档di的主题分布是θ_i=(θ_i1, θ_i2…,θ_iK)，是长度为K的向量；

　　7）对于第i篇文档d_i，在主题分布θ_i下，可以确定一个具体的主题z_ij=k，k∈[1,K]

　　8）φ_k表示第k个主题的词分布，k∈[1,K]

　　　　　　对于第k个主题T_k的词分布φ_k=(φ_k1, φ_k2… φ_kv)，是长度为v的向量

　　9）由z_ij选择φ_zij，表示由词分布φ_zij确定term，即得到观测值w_ij。

　　10）图中K为主题个数，M为文档总数，N_m是第m个文档的单词总数。β是每个Topic下词的多项分布的Dirichlet先验参数，α是每个文档下Topic的多项分布的Dirichlet先验参数。z_mn是第m个文档中第n个词的主题，w_mn是m个文档中的第n个词。两个隐含变量θ和φ分别表示第m个文档下的Topic分布和第k个Topic下词的分布，前者是k维(k为Topic总数)向量，后者是v维向量(v为词典中term总数)

参数的学习

　　给定一个文档集合，w_mn是可以观察到的已知变量，α和β是根据经验给定的先验参数，其他的变量z_mn、θ、φ都是未知的隐含变量，需要根据观察到的变量来学习估计的。根据LDA的图模型，可以写出所有变量的联合分布：

似然概率：

　　一个词w_mn初始化为一个词t的概率是：

　　每个文档中出现主题k的概率乘以主题k下出现词t的概率，然后枚举所有主题求和得到。整个文档集合的似然函数为：

Gibbs Sampling吉布斯采样

　　1）Gibbs Sampling算法的运行方式是每次选取概率向量的一个维度，给定其他维度的变量值采样当前维度的值。不断迭代直到收敛输出待估计的参数。

　　 2）初始时随机给文本中的每个词分配主题z⁽⁰⁾，然后统计每个主题z下出现词t的数量以及每个文档m下出现主题z的数量，每一轮计算p(z_i|z_-i,d,w)，即排除当前词的主题分布：

　　　　根据其他所有词的主题分布估计当前词分配各个主题的概率。

　　 3）当得到当前词属于所有主题z的概率分布后，根据这个概率分布为该词采样一个新的主题。

　　4）用同样的方法更新下一个词的主题，直到发现每个文档的主题分布θ_i和每个主题的词分布φ_j收敛，算法停止，输出待估计的参数θ和φ，同时每个单词的主题z_mn也可同时得出。

　　5）实际应用中会设置最大迭代次数。每一次计算p(z_i|z_-i,d,w)的公式称为Gibbs updating rule。

联合分布：

第一项因子是给定主题采样词的过程

后面的因子计算，n_z^(t)表示词t被观察到分配给主题z的次数， n_m^(k) 表示主题k分配给文档m的次数。

Gibbs updating rule：

词分布和主题分布：

超参数的确定

　　1）交叉验证

　　2）α表达了不同文档间主题是否鲜明，β度量了有多少近义词能够属于同一个类别。

　　3）主题数目K，词项数目为W，可以使用：

　　　　 α=50/K

　　　　　 β=200/W

　　　　　注：不一定普遍适用

　　一种迭代求超参数的方法：

　　Digamma函数：

　　迭代公式：(T. Minka)

　　主题个数的确定

　　　　1）相似度最小

　　　　2）选取初始的主题个数K，训练LDA模型，计算各主题之间的相似度

　　　　3）增加或减少K的值，重新训练LDA模型，再次计算topic之间的相似度

　　　　4）选择相似度最小的模型所对应的K作为主题个数。

概率分布的困惑度/复杂度Perplexity

　　某离散概率分布p的困惑度为：

　　样本集x₁,x₂…x_n的估计模型q的困惑度为：

　　　　a为任意整数。

　　　　交叉熵为：

困惑度Perplexity与主题模型

　　使用训练数据得到无监督模型，在测试数据集中计算所有token似然值几何平均数的倒数。

　　　　测试数据集中词典大小的期望

　　其中，LDA中词的似然概率为：

PageRank

一个网页i的重要度可以使用指向网页i的其他网页j的重要度加权得到。

　　权值不妨取网页j包含的链接数目。

参数的意义为：

　　1）网页i的中重要性D(P_i)

　　2）阻尼系数d，如设置为常系数0.85

　　3）指向网页i的网页集合ln(P_i)

　　4）网页j指向的网页集合Out(P_j)

TextRank

　　将PageRank中的“网页”换成“词”，结论仍成立。

　　　　选择合适的窗口大小，认为窗口内的词相互指向。

　　句子S_i和S_j的相似度：　　

　　将PageRank中“网页”换成“句子”，结论仍然基本成立，只需考虑将“链接”加权：

LDA总结

1）由于在词和文档之间加入的主题的概念，可以较好的解决一词多义和多词一义的问题。

2）在实践中发现，LDA用于短文档往往效果不明显——这是可以解释的：因为一个词被分配给某个主题的次数和一个主题包括的词数目尚未敛。往往需要通过其他方案“连接”成长文档。

3）LDA可以和其他算法相结合。首先使用LDA将长度为Ni的文档降维到K维(主题的数目)，同时给出每个主题的概率(主题分布)，从而可以使用if-idf继续分析或者直接作为文档的特征进入聚类或者标签传播算法——用于社区发现等问题。

机器学习-LDA主题模型笔记的更多相关文章

机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题参数说明:n_topics 表示分为多少个主题, max_i ...
机器学习入门-贝叶斯构造LDA主题模型，构造word2vec 1.gensim.corpora.Dictionary(构造映射字典) 2.dictionary.doc2vec(做映射) 3.gensim.model.ldamodel.LdaModel(构建主题模型)4lda.print_topics(打印主题).
1.dictionary = gensim.corpora.Dictionary(clean_content) 对输入的列表做一个数字映射字典, 2. corpus = [dictionary,do ...
理解 LDA 主题模型
前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 ...
通俗理解LDA主题模型
通俗理解LDA主题模型 0 前言印象中,最開始听说"LDA"这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦,我当时一直想看来着,记得还打印 ...
R语言︱LDA主题模型——最优主题数选取(topicmodels)+LDAvis可视化(lda+LDAvis)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:在自己学LDA主题模型时候,发现该模 ...
自然语言处理之LDA主题模型
1.LDA概述在机器学习领域,LDA是两个常用模型的简称:线性判别分析(Linear Discriminant Analysis)和隐含狄利克雷分布(Latent Dirichlet Alloca ...
LDA主题模型（理解篇）
何谓“主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章.一段话.一个句子所表达的中心思想.不过从统计模型的角度来说, 我们是用一个特定的词频分布来刻画主题的,并认为一篇文章.一段话.一个句子是从 ...
Gensim LDA主题模型实验
本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料. 1. 基于wiki语料的LDA实验上一文得到了wiki纯文本已分词语料 wiki.z ...
[综] Latent Dirichlet Allocation(LDA)主题模型算法
多项分布 http://szjc.math168.com/book/ebookdetail.aspx?cateid=1&&sectionid=983 二项分布和多项分布 http:// ...

随机推荐

CSS显示模式
div和span标签 1.容器级的标签中可以嵌套其他所有的标签(div->一般用于配合CSS完成网页的基本布局.h.ul.ol.dl.li.dt.dd......),文本级的标签中只能嵌套文字/ ...
C#中使用typeof关键字和GetType()获取类的内部结构（反射机制）
一.问题描述 java有反射机制,C#也有反射机制,在C#中typeof关键字用于获取类型的System.Type对象,该对象的GetMethods()方法可以得到类型中定义的方法对象的计集合,调用方 ...
Spark（四十七）：Spark UI 数据可视化
导入: 1)Spark Web UI主要依赖于流行的Servlet容器Jetty实现: 2)Spark Web UI(Spark2.3之前)是展示运行状况.资源状态和监控指标的前端,而这些数据都是由度 ...
文献阅读 | Epigenetics in ENS development and Hirschsprung disease
系列篇: Epigenetics in ENS development and Hirschsprung disease - Review Epigenetic Mechanisms in Hirsc ...
hdfs 通过命令坏块监测和删除或者地址获取参数做监控
[root@nodecm.oldboy.org.cn /data/dfs/nn/current]# hdfs fsck -list-corruptfileblocksConnecting to nam ...
IM 简介
LayIM - 打造属于你自己的网页聊天系统http://layim.layui.com/ 瓜子IM智能客服系统的数据架构设计(整理自现场演讲) - 知乎https://zhuanlan.zhihu. ...
Springboot项目mysql日期存储不匹配问题和在idea本地可以运行起来，但打包jar后运行报找不到mysql驱动的解决方案
修改pop.xml中scope的值,如果是具体版本号,修改为如下即可解决 <dependency> <groupId>mysql</groupId> <art ...
安装mysql报错：Can't find messagefile '/usr/share/mysql/english/errmsg.sys'和/usr/bin/mysqladmin: error while loading shared libraries: libmysqlclient.so.16: cannot open shared object file: No such file or
使用yum安装mysql服务端: [root@centos ~]# yum -y install mysql-server Loaded plugins: fastestmirror, securit ...
aar api 导出
import fsys; import math; var pidMap = {}; math.randomize(); fsys.enum( "~\lib", "*.* ...
Swift4.0复习泛型
1.泛型的基本使用: /// 定义了一个泛型结构体MyStruct, /// 其泛型形参为T struct MyStruct<T> { /// 用泛型T定义存储式成员属性t var t ...

机器学习-LDA主题模型笔记

机器学习-LDA主题模型笔记的更多相关文章

随机推荐

热门专题