频率派 贝叶斯派 theta是个未知的常量,X是随机变量, theta是个随机变量,X是随机变量 MLE最大似然估计 MAE最大后验概率 统计机器学习,优化问题 1)建立模型.概率 2)定义损失函数 3)梯度下降/牛顿法求解 概率图模型 求积分(用蒙特卡洛方法取样)…
机器学习中的MLE和MAP两大学派的争论: 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计): 频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围. 贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计): 贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最…
频率学派(古典学派)和贝叶斯学派是数理统计领域的两大流派. 这两大流派对世界的认知有本质的不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围:而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到这个世界的概率分布的最优表达. 本科期间学习的概率论与数理统计更多涉及的是频率学派的经典统计学观点,贝叶斯学派的观点也有接触,但是难以分清楚二者的区别.所以整理这篇博客,梳理关于这两个学派…
一.什么是朴素贝叶斯? (1)思想:朴素贝叶斯假设    条件独立性假设:假设在给定label y的条件下,特征之间是独立的    最简单的概率图模型 解释: (2)重点注意:朴素贝叶斯 拉普拉斯平滑(Laplace Smoothing) 为什么要做平滑处理?   零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0.在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0.这是不合理的,…
作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础.比如分解机(Factorization Machines)推荐算法,还有前面讲到的受限玻尔兹曼机(RBM)原理总结,都用到了MCMC来做一些复杂运算的近似求解.下面我们就对MCMC的原理做一个总结. 一.MCMC概述 从名字我们可以看出,MCMC由两个MC组成,即蒙特卡罗方法(Monte Carlo Si…
隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的.隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为快速.有效的方法. 现实世界中有一类问题具有明显的时序性,比如路口红绿灯.连续几天的天气变化,我们说话的上下文,HMM的基础假设就是,一个连续的时间序列事件,它的状态受且仅受它前面的N个事件决定,对应的时间序列可以成为N阶马尔可夫链. 假设今天是否有雾霾只由前天和昨天决定,于是就构成了一个2阶马尔可…
本文顺序 一.回忆线性回归 线性回归用最小二乘法,转换为极大似然估计求解参数W,但这很容易导致过拟合,由此引入了带正则化的最小二乘法(可证明等价于最大后验概率) 二.什么是贝叶斯回归? 基于上面的讨论,这里就可以引出本文的核心内容:贝叶斯线性回归. 贝叶斯线性回归不仅可以解决极大似然估计中存在的过拟合的问题. 它对数据样本的利用率是100%,仅仅使用训练样本就可以有效而准确的确定模型的复杂度. 在极大似然估计线性回归中我们把参数看成是一个未知的固定值,而贝叶斯学派则把看成是一个随机变量. 贝叶斯…
一.逻辑回归是什么? 1.逻辑回归 逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的. logistic回归也称为逻辑回归,与线性回归这样输出是连续的.具体的值(如具体房价123万元)不同,逻辑回归的输出是0~1之间的概率,但可以把它理解成回答“是”或者“否”(即离散的二分类)的问题.回答“是”可以用标签“1”表示,回答“否”可以用标签“0”表示. 比如,逻辑回归的输出是“某人生病的概率是多少”,我们可以进一步理解成“某人是否生病了”.设…
一.高斯网络(高斯图模型)总体介绍 概率图模型分为三种:贝叶斯网络,马尔科夫随机场以及高斯网络:而高斯网络又可以根据有向无向细分为高斯贝叶斯网络和高斯马尔科夫随机场 二.高斯贝叶斯网络 1.高斯贝叶斯网络是有向图,x服从高斯分布,y|x服从高斯分布 高斯贝叶斯网络(global model)是基于线性高斯模型(local model)的. 2.HMM与GBN关系 HMM是一种特殊的高斯贝叶斯网络,(他的父节点只有一个) 3.高斯贝叶斯网络的参数求解 三.高斯马尔科夫随机场 1.高斯马尔科夫网络的…
一.高斯(分布)过程(随机过程)是什么? 一维高斯分布 多维高斯分布 无限维高斯分布   高斯网络 高斯过程 简单的说,就是一系列关于连续域(时间或空间)的随机变量的联合,而且针对每一个时间或是空间点上的随机变量都是服从高斯分布的. 举个例子:倘若你人生的每一个时刻看做一个随机变量,且都是满足高斯分布,那么你的人生就可以看做一个高斯过程,既有很多确定的东西,确定的是mean和kernel,如你的人生中你起点决定的你人生的大致范围,又有极大地不确定性,本质还是随机变量的整体,就像你可以凭借自身的努…