PCA算法

本文出处：http://blog.csdn.net/xizhibei

http://www.cnblogs.com/bourneli/p/3624073.html

PrincipalComponents Analysis，主成份分析

寻找最小均方意义下，最能代表原始数据的投影方法

然后自己的说法就是：主要用于特征的降维

另外，这个算法也有一个经典的应用：人脸识别。这里稍微扯一下，无非是把处理好的人脸图片的每一行凑一起作为特征向量，然后用PAC算法降维搞定之。

PCA的主要思想是寻找到数据的主轴方向，由主轴构成一个新的坐标系，这里的维数可以比原维数低，然后数据由原坐标系向新的坐标系投影，这个投影的过程就可以是降维的过程。

推导过程神马的就不扯了，推荐一个课件：http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf，讲得挺详细的

然后说下算法的步骤

1.计算所有样本的均值m和散布矩阵S，所谓散布矩阵同协方差矩阵；

2.计算S的特征值，然后由大到小排序；

3.选择前n'个特征值对应的特征矢量作成一个变换矩阵E=[e1, e2, …, en’]；

4.最后，对于之前每一个n维的特征矢量x可以转换为n’维的新特征矢量y：

y = transpose(E)(x-m)

最后还得亲自做下才能记得住：用Python的numpy做的，用C做的话那就是没事找事，太费事了，因为对numpy不熟，下面可能有错误，望各位大大指正

mat = np.load("data.npy")#每一行一个类别数字标记与一个特征向量
data = np.matrix(mat[:,1:])
avg = np.average(data,0)
means = data - avg
tmp = np.transpose(means) * means / N #N为特征数量
D,V = np.linalg.eig(tmp)#DV分别对应特征值与特征向量组成的向量，需要注意下的是，结果是自动排好序的，再次膜拜numpy OTL
#print V
#print D
E = V[0:100,:]#这里只是简单取前100维数据，实际情况可以考虑取前80%之类的
y = np.matrix(E) * np.transpose(means)#得到降维后的特征向量
np.save("final",y)

另外，需要提一下的是OpenCV（无所不能的OpenCV啊OTL）中有PCA的实现：

void cvCalcPCA( const CvArr* data,//输入数据
CvArr* avg, //平均（输出）
CvArr* eigenvalues, //特征值（输出）
CvArr* eigenvectors, //特征向量（输出）
int flags );//输入数据中的特征向量是怎么放的，比如CV_PCA_DATA_AS_ROW

最后，说下PCA的缺点：PCA将所有的样本（特征向量集合）作为一个整体对待，去寻找一个均方误差最小意义下的最优线性映射投影，而忽略了类别属性，而它所忽略的投影方向有可能刚好包含了重要的可分性信息

PCA假设

1. 变量符合高斯分布（正太分布）

2. 变量之间的影响是线性的，也就是可以通过线性变化将数据还原成主要因数

3. 协方差最大的元素对应的转换向量越重要

4. 转换矩阵是正交的

PCA的整个推导过程都是遵循上面的四条假设，如果违反了这些假设，PCA可能作用不大，甚至有反作用，所以使用PCA时需要谨慎。

PCA最佳实践

压缩数据，主成份一般在90%，95%和99%几档，根据实际需要选取
加速模型建模，缩短时间（PCA处理后，建模，需要保留转换向量P，并用P处理预测数据）
可视化，如果前两个或三个数据可以表示90%以上的成分，那么可以进行可视化
PCA处理数据之前需要去报每个列的均值为0（mean normalization），同时需要确保量纲相同(scaling)，否则数值较大的几个变量会占据主要成分。
不要将PCA作为解决过拟合的方法，虽然使用PCA后，确实可以减少过拟合，但是原因可能是feature减少了。采用regulations缓解过拟合。
设计ML系统时，不要一开始就期望使用PCA，提高模型性能。只有当所有非PCA方法无法达到效果时，在使用PCA。PCA处理数据时没有考虑到y，会损失部分有价值信息

参考资料

[1] PCA维基百科

[2] PCA R示例（英文）

[3] PCA数学原理：深入浅出，值得一读

[4] 最后那幅宇宙图片的例子很形象

[5] Google研究员Jon Shlens的PCA原理介绍论文（英文）

[6] Week 8 in Machine Learning, by Andrew NG, Coursera

PCA算法的更多相关文章

PCA算法是怎么跟协方差矩阵/特征值/特征向量勾搭起来的?
PCA, Principle Component Analysis, 主成份分析, 是使用最广泛的降维算法. ...... (关于PCA的算法步骤和应用场景随便一搜就能找到了, 所以这里就不说了. ) ...
模式识别（1）——PCA算法
作者:桂. 时间:2017-02-26 19:54:26 链接:http://www.cnblogs.com/xingshansi/articles/6445625.html 声明:转载请注明出处, ...
三种方法实现PCA算法（Python）
主成分分析,即Principal Component Analysis(PCA),是多元统计中的重要内容,也广泛应用于机器学习和其它领域.它的主要作用是对高维数据进行降维.PCA把原先的n个特征用数目 ...
降维之pca算法
pca算法: 算法原理: pca利用的两个维度之间的关系和协方差成正比,协方差为0时,表示这两个维度无关,如果协方差越大这表明两个维度之间相关性越大,因而降维的时候, 都是找协方差最大的. 将XX中的 ...
PCA算法学习（Matlab实现）
PCA(主成分分析)算法,主要用于数据降维,保留了数据集中对方差贡献最大的若干个特征来达到简化数据集的目的. 实现数据降维的步骤: 1.将原始数据中的每一个样本用向量表示,把所有样本组合起来构成一个矩 ...
OpenCV学习(35) OpenCV中的PCA算法
PCA算法的基本原理可以参考:http://www.cnblogs.com/mikewolf2002/p/3429711.html 对一副宽p.高q的二维灰度图,要完整表示该图像,需要m = ...
我所认识的PCA算法的princomp函数与经历（基于matlab）
我接触princomp函数,主要是因为实验室的项目需要,所以我一接触的时候就希望快点学会怎么用. 项目中需要利用PCA算法对大量数据进行降维. 简介:主成分分析 ( Principal Compone ...
PCA算法的最小平方误差解释
PCA算法另外一种理解角度是:最小化点到投影后点的距离平方和. 假设我们有m个样本点,且都位于n维空间中,而我们要把原n维空间中的样本点投影到k维子空间W中去(k<n),并使得这m个点到投影点 ...
PCA算法理解及代码实现
github:PCA代码实现.PCA应用本文算法均使用python3实现 1. 数据降维在实际生产生活中,我们所获得的数据集在特征上往往具有很高的维度,对高维度的数据进行处理时消耗的时间很大, ...
Python使用三种方法实现PCA算法[转]
主成分分析(PCA) vs 多元判别式分析(MDA) PCA和MDA都是线性变换的方法,二者关系密切.在PCA中,我们寻找数据集中最大化方差的成分,在MDA中,我们对类间最大散布的方向更感兴趣. 一句 ...

随机推荐

<b>和<strong>标签区别
简单说, strong是web标准中xhtml的标签,加强语气,起强调作用(默认是采用加粗来实现强调),逻辑标签: b 是html的,bold粗体. web标准主张xhtml不涉及具体的表现形式,“强 ...
Silverlight中动画的性能浅析
Silverlight中提供了StoryBoard实现动画,可是StoryBoard的性能实在不敢恭维,特别是动画很大的时候,计算机的CPU和内存的狂增,如此一来性能实在太差,在默认的动画效果中动画实 ...
Uva 1588 Kickdown
这道题思路并不难想,在做题过程中主要遇到的困难有: 因为没有仔细的考虑边界情况,没有分析全面,导致因=没有取到而得不出正确结果,浪费的大量时间. 今后在做这类题目时,一定要先进行一个比较全面的分析+模 ...
关于MongoDb Replica Set的故障转移集群——实战篇
如果你还不了解Replica Set的相关理论,请猛戳传送门阅读笔者的上一篇博文. 因为Replica Set已经属于MongoDb的进阶应用,下文中关于MongoDb的基础知识笔者就不再赘述了,请参 ...
C#代码利用MongoDB中Group聚合函数查询
例子: public static void getUserRFM(DateTime beginTime, DateTime endTime) { MongoDat ...
WinSock编程基础
一.套接字模式 1.阻塞模式创建套接字时,默认是阻塞模式,对recv函数调用会使程序进入等待状态,知道接收到数据才返回. 2.非阻塞模式: 可以调用ioctlsocke ...
asp.net 发布后用IP访问正常，用机器名访问布局出错
问题如题[发布后IP访问正常,用机器名访问布局出现问题] 出现此问题的原因:IE文档模型发生变化,比如ip访问时IE文档模型为:IE10,换用机器名访问时,文档模型变为IE7 解决方法:设置默认IE版 ...
NLP自然语言处理学习笔记三(集成开发环境)
前言: 我们在做自然语言学习的过程中使用Python进行编程.是用解析器的方式确实有些麻烦.在这里给大家推荐一款集成开发环境IDE可以很方便的对Python进行项目管理,代码自动提示,运行调试等. 简 ...
【Inno Setup】 Inno Setup 64位安装程序默认安装路径
在脚本中加入: ArchitecturesInstallIn64BitMode=x64 ArchitecturesAllowed=x64
wpf 动画 2个窗体切换
<Window x:Class="翻转.MainWindow" xmlns="http://schemas.microsoft.com/winfx/2006/xam ...

PCA算法

PCA算法的更多相关文章

随机推荐

热门专题