Andrew Ng机器学习公开课笔记 – Factor Analysis
网易公开课,第13,14课
notes,9
本质上因子分析是一种降维算法
参考,http://www.douban.com/note/225942377/,浅谈主成分分析和因子分析
把大量的原始变量,浓缩成少数几个因子变量
原始变量,代表浅层的表面现象,所以一定是很多和繁杂的
而因子变量,是代表深层的本质,因,是无法直接观察到的
所以因子分析,就是拨开现象发现本质的过程。。。很牛逼的感觉
举个例子,观察一个学生,你可以统计到很多原始变量,
代数,几何,语文,英语各科的成绩,每天作业时间,每天笔记的量。。。
这些都是现象,那么他们的本质是什么,
逻辑因子,记忆因子,计算因子,表达因子
这些都是些更本质的东西,但是你直接观察不到, 所以我们要做的是,根据表示现象的原始变量,分析出潜在的因子变量,以达到降维
既然要找出latent变量,自然想到要用到EM算法
先看看,这个问题是怎么引出的?
对于前面看到的算法,一般都是m>>n,即训练集远远大于向量维数的
如果m和n近似,或小于n的情况下,会有什么问题?
其实简单点想,
AX = B
其中A是参数向量,而X为变量向量,如果X的维是n
如果要求出A,其实就是在解一个方程组,变量为n个,那么至少要n个方程,如果训练集大小m,即方程数小于n,那一定是没有解的,或无限解
看看formal的形式,对于混合高斯EM算法的M-step,
其中算均值是没有问题的,
但在协方差矩阵时,得到的是奇异矩阵, 即
不存在
关于奇异矩阵,可以参考,可汗学院公开课:线性代数_奇异矩阵_网易公开课
简单点理解,就想我上面说的,如果用这个矩阵当成方程组去求解,是无解的,即方程数不够
专业点说,就是不满秩,矩阵秩(rank)的意思,线性无关的纵列的极大数目
其实就是方程是有效的,无法被剩余的方程线性组合得到的,比如
x+y = 0
2x+2y = 0 ,3x+3y=0……
可以一直写下去,但这样形成的rank仍然为1,因为无法得到解,后面的方程都是无效的
为何 不存在,因为在计算逆的时候,需要计算1/|x|,其中|x|表示矩阵的行列式,对于奇异矩阵行列式是为0的,所以无穷大
为何奇异矩阵行列式为0?
我只能用一个2×2矩阵来举例,
a,b
c,d
行列式等于, a×d - b×c,如果是奇异矩阵,这个一定为0
好,是奇异矩阵,对于EM算法的问题是什么?
在计算混合高斯分布的密度是,需要算,
行列式为0,会导致无穷大,所以没有解
Restrictions of
那么怎么解决上面的问题?很显然我们是无法拟合出一个完整的的,所以对它做些限制
我们假设是个对角矩阵,diagonal
简单想想对角矩阵是什么,只有对角线上的值不为0,其他值都为0
意味着,各个特征间是互相对立的,没有关系的,因为协方差为0即表示没有关系,所以现在只需要算出,每个特征的方差即可
这样对m就没有要求,有样本就可以算出方差
还可以进一步假设,在对角线上的值都是相等的,即是方差的平均值
当然这样假设来限制,丢失的信息比较多,应该有更好的办法
Marginals and conditionals of Gaussians
先看看混合高斯分布中,如何求出边界和条件高斯分布
没太搞明白,直接列出结果
对于如下的联合分布,
则其中x1的边缘分布,也是符合高斯分布,p(x1) = p(x1,x2)对x1求积分
而条件分布,p(x1|x2) = p(x1,x2)/p(x2)
其中,
The Factor analysis model
其中x是n维的原始变量,而z是k维的因子变量
,而
,所以
就是n维向量,这个就是一个转换,将k维的z转换为维的x
是偏移量,
是误差
所以可以理解为,所有的高维的原始变量都是可以用低维的因子变量通过线性变换得到的
所以我们可以用因子变量来作为后续算法的输入,达到降维的目的
比如上面学生的例子,我们可以用下面3维的因子变量来替代上面的高维的原始变量
x:(代数 80,几何 90,语文 60,英语 70 。。。)
z:(逻辑因子 80,记忆因子70,表达因子 60)
我们再看下,因子分析(Factor Analysis)中给的图示,就更清楚一些
比如对于高维数据集,这里假设是2维,
如何用低维的,即一维的,因子变量转换得到,
首先是,其中
,把一维映射到二维
加上平移,
最后,加上误差扰动,即点不可能刚好在这个线上,需要加上符合高斯分布的误差
就得到最开始的原始数据集
说了半天,我们下步要干什么?再看下这个式子,
我们的目的是,用z替换x, 那么只要知道参数 ,我们就可以用z表示x, 即达到目的
那么我们的目标就是优化参数,使得x达到最大似然估计,即我们这样转换出的x和真实的x是匹配的
但上面只给出z的分布,怎么求x的分布?
这里就用x,z的联合分布,通过边缘分布来求x的分布,原理说不清,所以也是只是列出结果
通过一系列计算过程,可以参考讲义,得到,
通过上面边缘分布的定义,我们知道,
x的分布为,
所以得到优化目标函数为,
但是这个目标函数是无法直接解的
EM for factor analysis
所以还是要使用EM,
E-Step,
其中,
根据上面关于条件分布的定义,
于是,
M-Step,
优化目标函数,其中z是满足高斯分布的连续变量,故用积分
然后的过程就是对各个参数求偏导,求值。
求解过程,具体参考讲义吧,看着虐心。。。呵呵
Andrew Ng机器学习公开课笔记 – Factor Analysis的更多相关文章
- Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)
网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的 这里介绍的是另外一种降维的方法,Principal Compo ...
- Andrew Ng机器学习公开课笔记–Independent Components Analysis
网易公开课,第15课 notes,11 参考, PCA本质是旋转找到新的基(basis),即坐标轴,并且新的基的维数大大降低 ICA也是找到新的基,但是目的是完全不一样的,而且ICA是不会降维的 对于 ...
- Andrew Ng机器学习公开课笔记 -- 支持向量机
网易公开课,第6,7,8课 notes,http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM-支持向量机算法概述, 这篇讲的挺好,可以参考 先继 ...
- Andrew Ng机器学习公开课笔记 -- Regularization and Model Selection
网易公开课,第10,11课 notes,http://cs229.stanford.edu/notes/cs229-notes5.pdf Model Selection 首先需要解决的问题是,模型 ...
- Andrew Ng机器学习公开课笔记–Reinforcement Learning and Control
网易公开课,第16课 notes,12 前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么 但某些sequential decision making问题,比 ...
- Andrew Ng机器学习公开课笔记 -- 学习理论
网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/va ...
- Andrew Ng机器学习公开课笔记 -- Mixtures of Gaussians and the EM algorithm
网易公开课,第12,13课 notes,7a, 7b,8 从这章开始,介绍无监督的算法 对于无监督,当然首先想到k means, 最典型也最简单,有需要直接看7a的讲义 Mixtures of G ...
- Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms
网易公开课,第5课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 学习算法有两种,一种是前面一直看到的,直接对p(y|x; θ)进行建模 ...
- Andrew Ng机器学习公开课笔记 -- Online Learning
网易公开课,第11课 notes,http://cs229.stanford.edu/notes/cs229-notes6.pdf 和之前看到的batch learning算法不一样,batch ...
随机推荐
- XTU 1242 Yada Number 容斥
Yada Number Problem Description: Every positive integer can be expressed by multiplication of prime ...
- 电赛菜鸟营培训(三)——STM32F103CB之串口通信
一.串口通信概念 1.缩写 USART:Universal Synchronous/Asynchronous Receiver/Transmitter 通用同步/异步接收和发送器 2.用处 (1)同步 ...
- DEDECMS教程:上/下一篇文章标题长度的截取方法
对dedecms了解的朋友们,想必对如何获取上一篇.下一篇文章的标签也是非常熟悉.dedecms获取上一篇.下一篇文章的标签分别为:{dede:prenext get='pre'/}.{dede:pr ...
- Hark的数据结构与算法练习之若领图排序ProxymapSort
算法说明 若领图排序是分布排序的一种. 个人理解,若领图排序算是桶排序+计数排序的变异版,桶排序计数排序理解了,那么若领图排序理解起来就会比较容易.区别其实就是存储中间值的方式做了调整…… 话说,这个 ...
- android 音频采集1
声道数一般表示声音录制时的音源数量或回放时相应的扬声器数量. 假设某通道的音频信号是采样率为8kHz,位宽为16bit,20ms一帧,双通道,则一帧音频数据的大小为: int size = 8000 ...
- js:语言精髓笔记7----原型继承
面向对象有三个基本特性:封装,继承,多态:如果都满足的话称为面向对象语言:而部分满足则称为基于对象语言: 数据类型实现模型描述: JavaScript对象模型: 构造过程:函数->构造器 构造器 ...
- APIO2015
还没有写完APIO2015的题目,打算今天写一写. T1: 按位DP,DP时要保证已确定的位为0. 前4组设f[n][k]表示把前n个分成k组是否合法. 最后一组设g[n]表示把前n个最少分为多少组才 ...
- RN组件之ScrollView
一.ScrollView 该组件封装了Android平台的ScrollView(滚动组件),并且提供触摸事件"responder"系统功能.使用ScrollView的时候 确保有一 ...
- 给iOS工程增加Daily Build
给iOS工程增加Daily Build 前言 Daily Build 是一件非常有意义的事情,也是敏捷开发中关于 "持续集成" 的一个实践.Daily Build 对于开发来说有 ...
- SVN 中trunk、branches、tags
SVN 中trunk.branches.tags 我们在一些著名开源项目的版本库中,通常可以看到trunk, branches, tags等三个目录.由于SVN固有的特点,目录在SVN中并没有特别 ...