机器学习-EM算法-pLSA模型笔记

pLSA模型--基于概率统计的pLSA模型(probabilistic Latent Semantic Analysis，概率隐语义分析)，增加了主题模型，形成简单的贝叶斯网络，可以使用EM算法学习模型参数。概率潜在语义分析应用于信息检索，过滤，自然语言处理，文本的机器学习或者其他相关领域。

D代表文档，Z代表主题(隐含类别)，W代表单词；
　　P(d_i)表示文档d_i的出现概率，
　　P(z_k|d_i)表示文档d_i中主题z_k的出现概率，
　　P(w_j|z_k)表示给定主题zk出现单词w_j的概率。
每个主题在所有词项上服从多项分布，每个文档在所有主题上服从多项分布。
整个文档的生成过程是这样的：
　　以P(d_i)的概率选中文档d_i；
　　以P(z_k|d_i)的概率选中主题z_k；
　　以P(w_j|z_k)的概率产生一个单词w_j。
观察数据为(d_i,w_j)对，主题z_k是隐含变量。
(d_i,w_j)的联合分布为

而P(w_j|z_k)，P(z_k|d_i)对应了两组多项分布，而计算每个文档的主题分布，就是该模型的任务目标。

最大似然估计：wj在di中出现的次数n(d_i,w_j)

目标函数分析:

观察数据为(d_i,w_j)对，主题zk是隐含变量。

目标函数:

未知变量/自变量P(w_j|z_k)，P(z_k|d_i)

　　1) 使用逐次逼近的办法：假定P(z_k|d_i)、P(w_j|z_k)已知，求隐含变量z_k的后验概率；

　2) 在(d_i,w_j,z_k)已知的前提下，求关于参数P(z_k|d_i)、P(w_j|z_k) 的似然函数期望的最大值，得到最优解P(z_k|d_i)、P(w_j|z_k) ，带入上一步，从而循环迭代,即：EM算法。

求隐含变量主题zk的后验概率:

　　假定P(z_k|d_i)、P(w_j|z_k)已知，求隐含变量z_k的后验概率；

　　在(d_i,w_j,z_k)已知的前提下，求关于参数P(z_k|d_i)、P(w_j|z_k) 的似然函数期望的最大值，得到最优解P(z_k|d_i)、P(w_j|z_k) ，带入上一步，从而循环迭代。

关于参数P(z_k|d_i)、P(w_j|z_k) 的似然函数期望

完成目标函数的建立：

关于参数P(z_k|d_i)、P(w_j|z_k) 的函数E，并且，带有概率加和为1的约束条件：

显然，这是只有等式约束的求极值问题，使用Lagrange乘子法解决。

目标函数的求解：

求驻点：

分析第一个等式：

同理分析第二个等式：

求极值时的解——M-Step：

E-step（z_k的后验概率）：

pLSA的总结：

　　1）pLSA应用于信息检索、过滤、自然语言处理等领域，pLSA考虑到词分布和主题分布，使用EM算法来学习参数。
　2）虽然推导略显复杂，但最终公式简洁清晰，很符合直观理解，需用心琢磨；此外，推导过程使用了EM算法，也是学习EM算法的重要素材。

机器学习-EM算法-pLSA模型笔记的更多相关文章

机器学习-EM算法-GMM模型笔记
GMM即高斯混合模型,下面根据EM模型从理论公式推导GMM: 随机变量X是有K个高斯分布混合而成,取各个高斯分布的概率为φ1,φ2,... ,φK,第i个高斯分布的均值为μi,方差为Σi.若观测到随机 ...
机器学习-EM算法笔记
EM算法也称期望最大化(Expectation-Maximum,简称EM)算法,它是一个基础算法,是很多机器学习领域算法的基础,比如隐式马尔科夫算法(HMM), LDA主题模型的变分推断,混合高斯模型 ...
机器学习——EM算法
1 数学基础在实际中,最小化的函数有几个极值,所以最优化算法得出的极值不确实是否为全局的极值,对于一些特殊的函数,凸函数与凹函数,任何局部极值也是全局极致,因此如果目标函数是凸的或凹的,那么优化算法 ...
机器学习-EM算法
最大期望算法 EM算法的正式提出来自美国数学家Arthur Dempster.Nan Laird和Donald Rubin,其在1977年发表的研究对先前出现的作为特例的EM算法进行了总结并给出了标准 ...
机器学习-EM算法的收敛证明
上一篇开头说过1983年,美国数学家吴建福(C.F. Jeff Wu)给出了EM算法在指数族分布以外的收敛性证明. EM算法的收敛性只要我们能够证明对数似然函数的值在迭代的过程中是增加的即可: 证明 ...
机器学习——EM算法与GMM算法
目录最大似然估计 K-means算法 EM算法 GMM算法(实际是高斯混合聚类) 中心思想:①极大似然估计 ②θ=f(θold) 此算法非常老,几乎不会问到,但思想很重要. EM的原理推导还是蛮复杂 ...
PLSA及EM算法
前言:本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法.接着我们分析如何运用EM算法估计一个简单的mixture ...
详解十大经典机器学习算法——EM算法
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第14篇文章,我们来聊聊大名鼎鼎的EM算法. EM算法的英文全称是Expectation-maximization al ...
机器学习笔记（十）EM算法及实践（以混合高斯模型（GMM）为例来次完整的EM）
今天要来讨论的是EM算法.第一眼看到EM我就想到了我大枫哥,EM Master,千里马.RUA!!!不知道看这个博客的人有没有懂这个梗的. 好的,言归正传.今天要讲的EM算法,全称是Expectati ...

随机推荐

SDN上机第五次作业
2019 SDN上机第五次作业 1.浏览RYU官网学习RYU控制器的安装和RYU开发入门教程,提交你对于教程代码的理解,包括但不限于: 1.1描述官方教程实现了一个什么样的交换机功能? 答:官方教程实 ...
树莓派VNC
sudo raspi-config Interfacing Options -> VNC 1.停止VNC窗口: vncserver -kill:1 2.修改密码 vncpasswd 3.重启服务 ...
http code 有的意思
http code 有的意思,发现了一个图,感觉挺有意思的. 文章来源:刘俊涛的博客欢迎关注公众号.留言.评论,一起学习. _________________________________ ...
linux内核在哪里处理设备树中compatible为"syscon"的节点?
答: linux内核源码drivers/mfd/syscon.c中的of_syscon_register()接口对regmap_config进行初始化注: linux内核源码版本为5.1.0
Leetcode: Campus Bikes II
On a campus represented as a 2D grid, there are N workers and M bikes, with N <= M. Each worker a ...
【转载】 tf.split函数的用法
原文地址: https://blog.csdn.net/uestc_c2_403/article/details/73350457 由于tensorflow 版本更新问题用法略有修改 ----- ...
ES6深入浅出-5 新版对象-2.属性修饰符
对象语法增强已经有了个对象的新增语法还需要一个api来做呢?. 因为有的时候,你需要在旧的对象上添加get.set. 读的时候就走get 写的时候就走set 假设很早之前在项目里写了一个old对象 ...
ES6深入浅出-3 三个点运算 & 新版字符串-1.函数与对象的语法糖
主要讲的内容时间充裕的话就讲,模板字面量默认参数值首先讲es6之前,我们是怎么做的.例如我们要写一个求和的函数, 请两个参数的和,但是如果有的人就是穿一个参数呢? 那么b没有传值,b的值是多少呢 ...
【Java】Spring快速入门（一）
Spring介绍 Spring可以轻松创建Java企业应用程序.它提供了在企业环境中使用Java语言所需的一切,支持Groovy和Kotlin作为JVM上的替代语言,并可根据应用程序的需要灵活地创建多 ...
[Feature] Final pipeline: custom transformers
有视频:https://www.youtube.com/watch?v=BFaadIqWlAg 有代码:https://github.com/jem1031/pandas-pipelines-cust ...

机器学习-EM算法-pLSA模型笔记

机器学习-EM算法-pLSA模型笔记的更多相关文章

随机推荐

热门专题