Andrew Ng机器学习公开课笔记 – Factor Analysis
网易公开课,第13,14课
notes,9
本质上因子分析是一种降维算法
参考,http://www.douban.com/note/225942377/,浅谈主成分分析和因子分析
把大量的原始变量,浓缩成少数几个因子变量
原始变量,代表浅层的表面现象,所以一定是很多和繁杂的
而因子变量,是代表深层的本质,因,是无法直接观察到的
所以因子分析,就是拨开现象发现本质的过程。。。很牛逼的感觉
举个例子,观察一个学生,你可以统计到很多原始变量,
代数,几何,语文,英语各科的成绩,每天作业时间,每天笔记的量。。。
这些都是现象,那么他们的本质是什么,
逻辑因子,记忆因子,计算因子,表达因子
这些都是些更本质的东西,但是你直接观察不到, 所以我们要做的是,根据表示现象的原始变量,分析出潜在的因子变量,以达到降维
既然要找出latent变量,自然想到要用到EM算法
先看看,这个问题是怎么引出的?
对于前面看到的算法,一般都是m>>n,即训练集远远大于向量维数的
如果m和n近似,或小于n的情况下,会有什么问题?
其实简单点想,
AX = B
其中A是参数向量,而X为变量向量,如果X的维是n
如果要求出A,其实就是在解一个方程组,变量为n个,那么至少要n个方程,如果训练集大小m,即方程数小于n,那一定是没有解的,或无限解
看看formal的形式,对于混合高斯EM算法的M-step,

其中算均值是没有问题的,
但在协方差矩阵时,得到的
是奇异矩阵, 即
不存在
关于奇异矩阵,可以参考,可汗学院公开课:线性代数_奇异矩阵_网易公开课
简单点理解,就想我上面说的,如果用这个矩阵当成方程组去求解,是无解的,即方程数不够
专业点说,就是不满秩,矩阵秩(rank)的意思,线性无关的纵列的极大数目
其实就是方程是有效的,无法被剩余的方程线性组合得到的,比如
x+y = 0
2x+2y = 0 ,3x+3y=0……
可以一直写下去,但这样形成的rank仍然为1,因为无法得到解,后面的方程都是无效的
为何
不存在,因为在计算逆的时候,需要计算1/|x|,其中|x|表示矩阵的行列式,对于奇异矩阵行列式是为0的,所以无穷大
为何奇异矩阵行列式为0?
我只能用一个2×2矩阵来举例,
a,b
c,d
行列式等于, a×d - b×c,如果是奇异矩阵,这个一定为0
好,
是奇异矩阵,对于EM算法的问题是什么?
在计算混合高斯分布的密度是,需要算,
行列式为0,会导致无穷大,所以没有解
Restrictions of 
那么怎么解决上面的问题?很显然我们是无法拟合出一个完整的
的,所以对它做些限制
我们假设
是个对角矩阵,diagonal
简单想想对角矩阵是什么,只有对角线上的值不为0,其他值都为0
意味着,各个特征间是互相对立的,没有关系的,因为协方差为0即表示没有关系,所以现在只需要算出,每个特征的方差即可
这样对m就没有要求,有样本就可以算出方差
还可以进一步假设,在对角线上的值都是相等的,即是方差的平均值

当然这样假设来限制
,丢失的信息比较多,应该有更好的办法
Marginals and conditionals of Gaussians
先看看混合高斯分布中,如何求出边界和条件高斯分布
没太搞明白,直接列出结果
对于如下的联合分布,

则其中x1的边缘分布,也是符合高斯分布,p(x1) = p(x1,x2)对x1求积分

而条件分布,p(x1|x2) = p(x1,x2)/p(x2)

其中,

The Factor analysis model

其中x是n维的原始变量,而z是k维的因子变量
,而
,所以
就是n维向量,这个就是一个转换,将k维的z转换为维的x
是偏移量,
是误差
所以可以理解为,所有的高维的原始变量都是可以用低维的因子变量通过线性变换得到的
所以我们可以用因子变量来作为后续算法的输入,达到降维的目的
比如上面学生的例子,我们可以用下面3维的因子变量来替代上面的高维的原始变量
x:(代数 80,几何 90,语文 60,英语 70 。。。)
z:(逻辑因子 80,记忆因子70,表达因子 60)
我们再看下,因子分析(Factor Analysis)中给的图示,就更清楚一些
比如对于高维数据集,这里假设是2维,

如何用低维的,即一维的,因子变量转换得到,

首先是
,其中
,把一维映射到二维
加上平移,

最后,加上误差扰动,即点不可能刚好在这个线上,需要加上符合高斯分布的误差
就得到最开始的原始数据集

说了半天,我们下步要干什么?再看下这个式子,

我们的目的是,用z替换x, 那么只要知道参数
,我们就可以用z表示x, 即达到目的
那么我们的目标就是优化参数,使得x达到最大似然估计,即我们这样转换出的x和真实的x是匹配的
但上面只给出z的分布,怎么求x的分布?
这里就用x,z的联合分布,通过边缘分布来求x的分布,原理说不清,所以也是只是列出结果

通过一系列计算过程,可以参考讲义,得到,

通过上面边缘分布的定义,我们知道,
x的分布为,
所以得到优化目标函数为,

但是这个目标函数是无法直接解的
EM for factor analysis
所以还是要使用EM,
E-Step,

其中, 
根据上面关于条件分布的定义,

于是,

M-Step,
优化目标函数,其中z是满足高斯分布的连续变量,故用积分

然后的过程就是对各个参数求偏导,求值。
求解过程,具体参考讲义吧,看着虐心。。。呵呵
Andrew Ng机器学习公开课笔记 – Factor Analysis的更多相关文章
- Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)
网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的 这里介绍的是另外一种降维的方法,Principal Compo ...
- Andrew Ng机器学习公开课笔记–Independent Components Analysis
网易公开课,第15课 notes,11 参考, PCA本质是旋转找到新的基(basis),即坐标轴,并且新的基的维数大大降低 ICA也是找到新的基,但是目的是完全不一样的,而且ICA是不会降维的 对于 ...
- Andrew Ng机器学习公开课笔记 -- 支持向量机
网易公开课,第6,7,8课 notes,http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM-支持向量机算法概述, 这篇讲的挺好,可以参考 先继 ...
- Andrew Ng机器学习公开课笔记 -- Regularization and Model Selection
网易公开课,第10,11课 notes,http://cs229.stanford.edu/notes/cs229-notes5.pdf Model Selection 首先需要解决的问题是,模型 ...
- Andrew Ng机器学习公开课笔记–Reinforcement Learning and Control
网易公开课,第16课 notes,12 前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么 但某些sequential decision making问题,比 ...
- Andrew Ng机器学习公开课笔记 -- 学习理论
网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法 Bias/va ...
- Andrew Ng机器学习公开课笔记 -- Mixtures of Gaussians and the EM algorithm
网易公开课,第12,13课 notes,7a, 7b,8 从这章开始,介绍无监督的算法 对于无监督,当然首先想到k means, 最典型也最简单,有需要直接看7a的讲义 Mixtures of G ...
- Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms
网易公开课,第5课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 学习算法有两种,一种是前面一直看到的,直接对p(y|x; θ)进行建模 ...
- Andrew Ng机器学习公开课笔记 -- Online Learning
网易公开课,第11课 notes,http://cs229.stanford.edu/notes/cs229-notes6.pdf 和之前看到的batch learning算法不一样,batch ...
随机推荐
- poj 3281 最大流+建图
很巧妙的思想 转自:http://www.cnblogs.com/kuangbin/archive/2012/08/21/2649850.html 本题能够想到用最大流做,那真的是太绝了.建模的方法很 ...
- Codeforces Gym 100513G G. FacePalm Accounting
G. FacePalm Accounting Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://codeforces.com/gym/100513 ...
- 安装完最小化 RHEL/CentOS 7 后需要做的 30 件事情(二)转载自码农网
7. 安装 PHP PHP 是用于 web 基础服务的服务器端脚本语言.它也经常被用作通用编程语言.在最小化安装的 CentOS 中安装 PHP: # yum install php 安装完 php ...
- 调整linux的时钟
想把linux时钟调整的正常了. 网上找了找资料,找到了同步办法: http://blog.51yip.com/server/1474.html 即使用: sudo yum install ntp s ...
- 最短路(Dijkstra) POJ 1062 昂贵的聘礼
题目传送门 /* 最短路:Dijkstra算法,首先依照等级差距枚举“删除”某些点,即used,然后分别从该点出发生成最短路 更新每个点的最短路的最小值 注意:国王的等级不一定是最高的:) */ #i ...
- 贪心 POJ 2109 Power of Cryptography
题目地址:http://poj.org/problem?id=2109 /* 题意:k ^ n = p,求k 1. double + pow:因为double装得下p,k = pow (p, 1 / ...
- display显示隐藏
display <!DOCTYPE HTML> <html> <head> <meta charset="utf-8"> <t ...
- POJ3687 Labeling Balls(拓扑排序\贪心+Floyd)
题目是要给n个重量1到n的球编号,有一些约束条件:编号A的球重量要小于编号B的重量,最后就是要输出字典序最小的从1到n各个编号的球的重量. 正向拓扑排序,取最小编号给最小编号是不行的,不举出个例子真的 ...
- robotium 新建 android 测试项目:
注意:新建项目后再运行前一定要修改Manifest文件中的instrumentation 中的target package, 这个是测试的入口 1. 程序开始要通知系统我要测的app是什么 如何知道a ...
- 【BZOJ】1014: [JSOI2008]火星人prefix(splay+hash+二分+lcp)
http://www.lydsy.com/JudgeOnline/problem.php?id=1014 题意:支持插入一个字符.修改一个字符,查询lcp.(总长度<=100000, 操作< ...