MM bound 与 Jensen's inequality】的更多相关文章

MM bound 与 Jensen's inequality 简森不等式 在使用最大似然估计方法求解模型最优解的时候,如果使用梯度下降(GD or SGD)或者梯度上升(GA or SGA),可能收敛的很慢. 这时,可以使用 MM bound + Jensen's inequality 相结合的方法,先用MM,然后用 Jensen's inequality,可能能得到一个最大值解.使用这个最大值解来更新参数就好了. 1.先使用 MM bound, 2.使用两个 Jensen 不等式:…
Machine Learning Methods: Decision trees and forests This post contains our crib notes on the basics of decision trees and forests. We first discuss the construction of individual trees, and then introduce random and boosted forests. We also discuss…
Chapter 1.6 : Information Theory     Chapter 1.6 : Information Theory Christopher M. Bishop, PRML, Chapter 1 Introdcution 1. Information h(x) Given a random variable and we ask how much information is received when we observe a specific value for thi…
转自:http://www.hongliangjie.com/2010/01/04/notes-on-probabilistic-latent-semantic-analysis-plsa/ I highly recommend you read the more detailed version of http://arxiv.org/abs/1212.3900 Formulation of PLSA There are two ways to formulate PLSA. They are…
Empiricial Risk Minimization 统计学习理论是整个机器学习到框架.试想我们学习的目的是什么呢?当然是为了具备用合理的方式处理问题的能力.统计学习理论要解决的问题就是基于数据找到一个预测函数.经验风险最小化(Empiricial Risk Minimization,ERM)[2]是统计学习理论中准则之一,常用于给出学习算法(learning algorithms)性能的理论边界. 假定给定两个数据空间\(X\)和\(Y\), 我们想学习到一个假设函数(hypothesis…
该章节证明用到的不等式:Hoeffding不等式,McDiarmid不等式以及jensen不等式 Hoeffding's: McDiarmid不等式是Hoeffding不等式的一个推广,用f(S)代替了和函数Sm,用ci代替了(bi-ai): Jensen’s inequality: If x is a random variable and φ is a convex function,then: φ(E(x))<=E(φ(x)) 在前面PAC Learning Model的推广中,只证明了对…
涉及的领域可能有些生僻,骗不了大家点赞.但毕竟是人工智能的主流技术,在园子却成了非主流. 不可否认的是:乃值钱的技术,提高身价的技术,改变世界观的技术. 关于变分,通常的课本思路是: GMM --> EM --> VI --> Variational Bayesian Gaussian Mixture GMM是个好东西,实用的模型,也是讲解收敛算法的一个好载体. 关于这部分内容,如果你懂中文,推荐一个人,徐亦达老师.中文教学,亲手推算公式给读者的视频,是需要珍惜和珍藏的. 因为提供了pp…
CS229 Machine Learning Stanford Course by Andrew Ng Course material, problem set Matlab code written by me, my notes about video course: https://github.com/Yao-Yao/CS229-Machine-Learning Contents: supervised learning Lecture 1 application field, pre-…
网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法   Bias/variance tradeoff 还是用这组图,学习算法追求的是generalization error(对未知数据的预测误差),而不是training error(只是对训练集) 最左边,underfit,我们说这种学习算法有较大的bias Informally, we define the bia…
熵 给定一个离散变量,我们观察它的每一个取值所包含的信息量的大小,因此,我们用来表示信息量的大小,概率分布为.当p(x)=1时,说明这个事件一定会发生,因此,它带给我的信息为0.(因为一定会发生,毫无悬念) 如果x和y独立无关,那么: 他们之间的关系为: (p(x)=1时,h(x)=0,负号为了确保h(x)为正,这里取2为底是随机的,可以取其他的正数(除了1)) 因此,对于所有x的取值,它的熵有: 注:,当遇到时, 这里插一段信息熵的解释: ———————————————————————————…