网易公开课,第13,14课
notes,9

本质上因子分析是一种降维算法
参考,http://www.douban.com/note/225942377/,浅谈主成分分析和因子分析

把大量的原始变量,浓缩成少数几个因子变量
原始变量,代表浅层的表面现象,所以一定是很多和繁杂的
而因子变量,是代表深层的本质,因,是无法直接观察到的

所以因子分析,就是拨开现象发现本质的过程。。。很牛逼的感觉

举个例子,观察一个学生,你可以统计到很多原始变量,

代数,几何,语文,英语各科的成绩,每天作业时间,每天笔记的量。。。

这些都是现象,那么他们的本质是什么,
逻辑因子,记忆因子,计算因子,表达因子

这些都是些更本质的东西,但是你直接观察不到, 所以我们要做的是,根据表示现象的原始变量,分析出潜在的因子变量,以达到降维

既然要找出latent变量,自然想到要用到EM算法

 

先看看,这个问题是怎么引出的?

对于前面看到的算法,一般都是m>>n,即训练集远远大于向量维数的

如果m和n近似,或小于n的情况下,会有什么问题?

其实简单点想,

AX = B

其中A是参数向量,而X为变量向量,如果X的维是n

如果要求出A,其实就是在解一个方程组,变量为n个,那么至少要n个方程,如果训练集大小m,即方程数小于n,那一定是没有解的,或无限解

看看formal的形式,对于混合高斯EM算法的M-step,

其中算均值是没有问题的,
但在协方差矩阵时,得到的是奇异矩阵, 即 不存在
关于奇异矩阵,可以参考,可汗学院公开课:线性代数_奇异矩阵_网易公开课

简单点理解,就想我上面说的,如果用这个矩阵当成方程组去求解,是无解的,即方程数不够
专业点说,就是不满秩,矩阵秩(rank)的意思,线性无关的纵列的极大数目

其实就是方程是有效的,无法被剩余的方程线性组合得到的,比如

x+y = 0

2x+2y = 0 ,3x+3y=0……

可以一直写下去,但这样形成的rank仍然为1,因为无法得到解,后面的方程都是无效的

为何 不存在,因为在计算逆的时候,需要计算1/|x|,其中|x|表示矩阵的行列式,对于奇异矩阵行列式是为0的,所以无穷大
为何奇异矩阵行列式为0?
我只能用一个2×2矩阵来举例,
a,b
c,d

行列式等于, a×d - b×c,如果是奇异矩阵,这个一定为0

好,是奇异矩阵,对于EM算法的问题是什么?

在计算混合高斯分布的密度是,需要算,
行列式为0,会导致无穷大,所以没有解

 

Restrictions of

那么怎么解决上面的问题?很显然我们是无法拟合出一个完整的的,所以对它做些限制
我们假设是个对角矩阵,diagonal

简单想想对角矩阵是什么,只有对角线上的值不为0,其他值都为0
意味着,各个特征间是互相对立的,没有关系的,因为协方差为0即表示没有关系,所以现在只需要算出,每个特征的方差即可

 

这样对m就没有要求,有样本就可以算出方差

还可以进一步假设,在对角线上的值都是相等的,即是方差的平均值

当然这样假设来限制,丢失的信息比较多,应该有更好的办法

 

Marginals and conditionals of Gaussians

先看看混合高斯分布中,如何求出边界和条件高斯分布

没太搞明白,直接列出结果

对于如下的联合分布,

则其中x1的边缘分布,也是符合高斯分布,p(x1) = p(x1,x2)对x1求积分

而条件分布,p(x1|x2) = p(x1,x2)/p(x2)

其中,

 

The Factor analysis model

其中x是n维的原始变量,而z是k维的因子变量

,而 ,所以 就是n维向量,这个就是一个转换,将k维的z转换为维的x

是偏移量, 是误差

所以可以理解为,所有的高维的原始变量都是可以用低维的因子变量通过线性变换得到的

所以我们可以用因子变量来作为后续算法的输入,达到降维的目的

比如上面学生的例子,我们可以用下面3维的因子变量来替代上面的高维的原始变量

x:(代数 80,几何 90,语文 60,英语 70 。。。)

z:(逻辑因子 80,记忆因子70,表达因子 60)

我们再看下,因子分析(Factor Analysis)中给的图示,就更清楚一些

比如对于高维数据集,这里假设是2维,

如何用低维的,即一维的,因子变量转换得到,

首先是,其中 ,把一维映射到二维

 

加上平移,

最后,加上误差扰动,即点不可能刚好在这个线上,需要加上符合高斯分布的误差

就得到最开始的原始数据集

说了半天,我们下步要干什么?再看下这个式子,

我们的目的是,用z替换x, 那么只要知道参数 ,我们就可以用z表示x, 即达到目的

那么我们的目标就是优化参数,使得x达到最大似然估计,即我们这样转换出的x和真实的x是匹配的

但上面只给出z的分布,怎么求x的分布?

这里就用x,z的联合分布,通过边缘分布来求x的分布,原理说不清,所以也是只是列出结果

通过一系列计算过程,可以参考讲义,得到,

通过上面边缘分布的定义,我们知道,

x的分布为,

所以得到优化目标函数为,

但是这个目标函数是无法直接解的

 

EM for factor analysis

所以还是要使用EM,

E-Step,

其中,

根据上面关于条件分布的定义,

于是,

 

M-Step,

优化目标函数,其中z是满足高斯分布的连续变量,故用积分

然后的过程就是对各个参数求偏导,求值。

求解过程,具体参考讲义吧,看着虐心。。。呵呵

Andrew Ng机器学习公开课笔记 – Factor Analysis的更多相关文章

  1. Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)

    网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的 这里介绍的是另外一种降维的方法,Principal Compo ...

  2. Andrew Ng机器学习公开课笔记–Independent Components Analysis

    网易公开课,第15课 notes,11 参考, PCA本质是旋转找到新的基(basis),即坐标轴,并且新的基的维数大大降低 ICA也是找到新的基,但是目的是完全不一样的,而且ICA是不会降维的 对于 ...

  3. Andrew Ng机器学习公开课笔记 -- 支持向量机

    网易公开课,第6,7,8课 notes,http://cs229.stanford.edu/notes/cs229-notes3.pdf SVM-支持向量机算法概述, 这篇讲的挺好,可以参考   先继 ...

  4. Andrew Ng机器学习公开课笔记 -- Regularization and Model Selection

    网易公开课,第10,11课 notes,http://cs229.stanford.edu/notes/cs229-notes5.pdf   Model Selection 首先需要解决的问题是,模型 ...

  5. Andrew Ng机器学习公开课笔记–Reinforcement Learning and Control

    网易公开课,第16课 notes,12 前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么 但某些sequential decision making问题,比 ...

  6. Andrew Ng机器学习公开课笔记 -- 学习理论

    网易公开课,第9,10课 notes,http://cs229.stanford.edu/notes/cs229-notes4.pdf 这章要讨论的问题是,如何去评价和选择学习算法   Bias/va ...

  7. Andrew Ng机器学习公开课笔记 -- Mixtures of Gaussians and the EM algorithm

    网易公开课,第12,13课 notes,7a, 7b,8 从这章开始,介绍无监督的算法 对于无监督,当然首先想到k means, 最典型也最简单,有需要直接看7a的讲义   Mixtures of G ...

  8. Andrew Ng机器学习公开课笔记 -- Generative Learning algorithms

    网易公开课,第5课 notes,http://cs229.stanford.edu/notes/cs229-notes2.pdf 学习算法有两种,一种是前面一直看到的,直接对p(y|x; θ)进行建模 ...

  9. Andrew Ng机器学习公开课笔记 -- Online Learning

    网易公开课,第11课 notes,http://cs229.stanford.edu/notes/cs229-notes6.pdf   和之前看到的batch learning算法不一样,batch ...

随机推荐

  1. HDU 4345 Permutation dp

    Permutation Problem Description There is an arrangement of N numbers and a permutation relation that ...

  2. radioButton

    布局: <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tool ...

  3. php数据库操作封装类

    <?php /** * Desc: php操作mysql的封装类 * Author zhifeng * Date: 2015/04/15 * 连接模式:PDO */ class MMysql { ...

  4. hdu 5753 Permutation Bo

    这里是一个比较简单的问题:考虑每个数对和的贡献.先考虑数列两端的值,两端的摆放的值总计有2种,比如左端:0,大,小:0,小,大:有1/2的贡献度.右端同理. 中间的书总计有6种可能.小,中,大.其中有 ...

  5. Apple Watch开发快速入门教程

     Apple Watch开发快速入门教程  试读下载地址:http://pan.baidu.com/s/1eQ8JdR0 介绍:苹果为Watch提供全新的开发框架WatchKit.本教程是国内第一本A ...

  6. 简单几何(点与线段的位置) POJ 2318 TOYS && POJ 2398 Toy Storage

    题目传送门 题意:POJ 2318 有一个长方形,用线段划分若干区域,给若干个点,问每个区域点的分布情况 分析:点和线段的位置判断可以用叉积判断.给的线段是排好序的,但是点是无序的,所以可以用二分优化 ...

  7. Codeforces Round #199 (Div. 2) A Xenia and Divisors

    注意题目的数字最大是7 而能整除的只有 1,2,3,4,6,故构成的组合只能是1,2,4 或1,2,6或1,3,6,故分别统计1,2,3,4,6的个数,然后再分配 #include <iostr ...

  8. jsp中如何取得当前页面完整的URL

    JSP页面 <% String url = request.getScheme()+"://"+ request.getServerName()+request.getReq ...

  9. hdu City Game

    做这题之前建议做一下hdu1506题,两道题是极度相似的题,不同的是这个要处理的是m行,所以可以用一个dp[][]数组存储矩形的高度,之后就变成hdu1506了. 例如测试样例: 0 1 1 1 1 ...

  10. hdu Largest Rectangle in a Histogram

    这道题目是一道动态规划的题目,动态规划的点不在面积上,而在每个矩形可左右扩展的坐标上.找出每个矩形最左边和最右边比它高的矩形的下标,最后求面积即可: #include"stdio.h&quo ...