Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms

网易公开课，第5课
notes，http://cs229.stanford.edu/notes/cs229-notes2.pdf

学习算法有两种，一种是前面一直看到的，直接对p(y|x; θ)进行建模，比如前面说的线性回归或逻辑回归，这种称为判别学习算法（discriminative learning algorithms）

另外一种思路，就是这里要谈的，称为生成学习算法（generative learning algorithms），区别在于不会直接对p(y|x; θ)进行建模，而是对p(x|y) (and p(y))进行建模，然后用bayes定理算出p(y|x)

不像判别方法，给定x就能通过训练的模型算出结果
比如逻辑回归中，通过

而生成学习算法的思路是这样的，由于需要对p(x|y)进行建模，x是连续的，但对于分类问题y是离散的，比如取值0或1
我们做的是，分别对每种y的情况进行建模，比如判断垃圾邮件，那么分别对垃圾和正常邮件进行建模，得到
p(x|y = 0) models 和 p(x|y = 1) models
而p(y) (called the class priors)往往是比较容易算出的
当来一个新的x时，需要计算每个y的p(y|x)，并且取概率最大的那个y
这里由于只需要比较大小，p(x)对于大家都是一样的，不需要算

所以对于任意生成学习算法，关键就是要学习出
p(x|y = 0) models 和 p(x|y = 1) models

Gaussian discriminant analysis

首先学习的一个生成算法就是GDA，高斯判别分析
不解为何生成算法要叫判别。。。

多项高斯分布
对于这个算法，首先要假设p(x|y)符合多项高斯分布（multivariate normal distribution），区别于一般的高斯分布，参数μ是一维的，而多项高斯分布参数是n维的

其中，
，mean vector，是个n维的向量
，covariance matrix，是个n×n的矩阵
关于这个分布，课件里面讲的很详细，还有很多图，参考课件吧
其实只要知道这个分布也是一个bell-shape curve，μ会影响bell的位置（平移）
而covariance matrix会影响bell的高矮，扁圆的形状

The Gaussian Discriminant Analysis model
继续讲这个模型
前面说了对于生成学习算法，关键就是要找出p(x|y = 0)，p(x|y = 1)和p(y)

好理解吗，y取值0或1，一定是伯努利分布，而p(x|y)根据前面假设一定是符合多项高斯分布，所以有

现在问题是要根据训练集，学习出

怎么学？最大似然估计

这里和判别学习算法不同，
判别学习算法，对p(y|x; θ)进行建模，所以称为conditional似然估计
而生成学习算法，是对于p(x|y)*p(y)，即p(x,y)进行建模，所以称为joint似然估计

使用最优化算法计算maximizing ℓ，得到参数如下（计算过程略去）

虽然没有写计算过程，但是得到的这个结果是reasonable的
φ就是y=1的概率，算出的结果就是在训练集中y=1的比例
μ0，μ1，结果是训练集中y=0（或y=1）时x的均值，都很合理

计算出这些参数，我们就得到p(x|y = 0)，p(x|y = 1)和p(y)，然后可以使用上面的方法就行预测

Discussion: GDA and logistic regression
这里有个很有趣的结论

We just argued that if p(x|y) is multivariate gaussian (with shared ), then p(y|x) necessarily follows a logistic function. The converse, however, is not true;

当p(x|y)满足multivariate gaussian的时候，p(y|x)一定是logistic function，但反之不成立。
使用视频中的截图，更容易理解

图中，叉表示y=0的点，圈表示y=1的点
所以对于y=0和y=1分别建模，就得到两边的两个bell-shaped的高斯曲线
这时如果要画出p(y=1|x)，就得到中间的sigmod曲线
越靠左y=1的概率越小，越靠右y=1的概率越接近1，在中间两个曲线交界的地方，y=1的概率为0.5
非常形象的说明为什么p(y|x)会是一个logistic function

更酷的是，这个结论可以推广到任何指数族分布，即任何广义线性模型的分布

那么这里产生的问题就是，我们为什么需要GDA，直接使用逻辑回归不可以吗？
两者区别在于，
GDA比逻辑回归做出更强的假设，因为前面的结论是不可逆的
所以当数据p(x|y)确实或近似符合高斯分布时，GDA更有效，并且需要更少的训练数据就可以达到很好的效果
但是在实际中，其实你很难确定这点，
这时逻辑回归有更好的鲁棒性，比如如果p(x|y)符合泊松分布，而你误认为符合高斯分布，而使用GDA，那么效果就会不太好
而逻辑回归，对数据做出的假设比较少，只要p(x|y)指数族分布，都会有比较好的效果，当然逻辑回归需要的训练数据也是比较多的

这里其实就是一个balance
模型假设强弱和训练数据量之间的权衡
如果你明确知道符合高斯分布，那么用比较少的训练数据，使用GDA就很好
如果不确定，就使用逻辑回归，用比较多的训练数据

Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms的更多相关文章

Andrew Ng机器学习公开课笔记–Reinforcement Learning and Control
网易公开课,第16课 notes,12 前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么但某些sequential decision making问题,比 ...
Andrew Ng机器学习公开课笔记 -- Online Learning
网易公开课,第11课 notes,http://cs229.stanford.edu/notes/cs229-notes6.pdf 和之前看到的batch learning算法不一样,batch ...
Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)
网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的这里介绍的是另外一种降维的方法,Principal Compo ...
Andrew Ng机器学习公开课笔记 -- 学习理论
网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/va ...
Andrew Ng机器学习公开课笔记 -- 支持向量机
网易公开课,第6,7,8课 notes,http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM-支持向量机算法概述, 这篇讲的挺好,可以参考先继 ...
Andrew Ng机器学习公开课笔记 -- Regularization and Model Selection
网易公开课,第10,11课 notes,http://cs229.stanford.edu/notes/cs229-notes5.pdf Model Selection 首先需要解决的问题是,模型 ...
Andrew Ng机器学习公开课笔记 – Factor Analysis
网易公开课,第13,14课 notes,9 本质上因子分析是一种降维算法参考,http://www.douban.com/note/225942377/,浅谈主成分分析和因子分析把大量的原始变量, ...
Andrew Ng机器学习公开课笔记 -- 线性回归和梯度下降
网易公开课,监督学习应用.梯度下降 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 线性回归(Linear Regression) 先看个 ...
Andrew Ng机器学习公开课笔记 -- Logistic Regression
网易公开课,第3,4课 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 前面讨论了线性回归问题, 符合高斯分布,使用最小二乘来作为损失函数 ...

随机推荐

JS中setInterval、setTimeout不能传递带参数的函数的解决方法
setInterval 和 setTimeout 这两个函数比较好用,但会遇到比如说我隔个几秒后要执行的函数是带参数的,这种情况怎么办?可以用匿名函数包装处理 //不带参数的函数 function t ...
转载：Erlang 函数（Efficiency Guide）
转自:http://www.cnblogs.com/futuredo/archive/2012/10/26/2737644.html Functions 1 Pattern matching 模式匹 ...
CentOS 6.5 下Vim 配置图解
分享个CentOS 6.5 下Vim 配置图文详解,希望对大家有所帮助. 1. 登录并进入你常用的用户名下,查看其主目录命令: # su xxx $ cd xxx $ ls -a 2.查看并建立目录 ...
$.ajax的一般用法
$.post.$.get是一些简单的方法,如果要处理复杂的逻辑,还是需要用到jQuery.ajax() 一.$.ajax的一般格式 $.ajax({ type: 'POST', url: url , ...
mysql 5.7 详细图文安装教程
官网下载太慢,可以上下载频道下载(mysql-installer-community-5.7.13.0.msi): http://download.csdn.net/download/tan3739/ ...
js时间转化
const defaultTicks = 621355968000000000; export function convertDateToTicks(date = new Date()) { ret ...
基于Bootstrap使用jQuery实现输入框组input-group的添加与删除-改进版
上一次说到了基于Bootstrap使用jQuery实现输入框组input-group的添加与删除 ,初始状态下只有一个输入框组,可以通过点击输入框组的右侧“+”(或自定义的文字)可以在原输入框组的下面 ...
VC++ 6.0开发套件（自己收藏！）
安装镜像ISO VC++ 6.0_SP6_Win7企业版(中英文集成).iso MSDN安装镜像ISO MSDN_Oct_200 ...
九度 1500：出操队形(LIS变形)
题目描述: 在读高中的时候,每天早上学校都要组织全校的师生进行跑步来锻炼身体,每当出操令吹响时,大家就开始往楼下跑了,然后身高矮的排在队伍的前面,身高较高的就要排在队尾.突然,有一天出操负责人想了一个 ...
Int 型数值存储
1. Int 在计算机中占 4 Byte, 共 32 位, 最大正数为 2147483647, 最小负数为 -2147483648 2. 正数存储在计算机中的形式为原码,最大正数的十六进制形式为 0X ...

Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms

Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms的更多相关文章

随机推荐

热门专题