关于PCA算法的一点学习总结

本文出处：http://blog.csdn.net/xizhibei

=============================

PCA，也就是PrincipalComponents Analysis，主成份分析，是个非常优秀的算法，依照书上的说法：

寻找最小均方意义下，最能代表原始数据的投影方法

然后自己的说法就是：主要用于特征的降维

另外，这个算法也有一个经典的应用：人脸识别。这里略微扯一下，无非是把处理好的人脸图片的每一行凑一起作为特征向量，然后用PAC算法降维搞定之。

PCA的主要思想是寻找到数据的主轴方向，由主轴构成一个新的坐标系，这里的维数能够比原维数低，然后数据由原坐标系向新的坐标系投影，这个投影的过程就能够是降维的过程。

推导过程神马的就不扯了，推荐一个课件：http://www.cs.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf，讲得挺具体的

然后说下算法的步骤

1.计算全部样本的均值m和散布矩阵S，所谓散布矩阵同协方差矩阵；

2.计算S的特征值，然后由大到小排序；

3.选择前n'个特征值相应的特征矢量作成一个变换矩阵E=[e1, e2, …, en’]；

4.最后，对于之前每个n维的特征矢量x能够转换为n’维的新特征矢量y：

y = transpose(E)(x-m)

最后还得亲自做下才干记得住：用Python的numpy做的，用C做的话那就是没事找事，太费事了，由于对numpy不熟，以下可能有错误，望各位大大指正

mat = np.load("data.npy")#每一行一个类别数字标记与一个特征向量

data = np.matrix(mat[:,1:])

avg = np.average(data,0)

means = data - avg

tmp = np.transpose(means) * means / N #N为特征数量

D,V = np.linalg.eig(tmp)#DV分别相应特征值与特征向量组成的向量，须要注意下的是，结果是自己主动排好序的，再次膜拜numpy  OTL

#print V

#print D

E = V[0:100,:]#这里仅仅是简单取前100维数据，实际情况能够考虑取前80%之类的

y = np.matrix(E) * np.transpose(means)#得到降维后的特征向量

np.save("final",y)

另外，须要提一下的是OpenCV（无所不能的OpenCV啊OTL）中有PCA的实现：

void cvCalcPCA( const CvArr* data,//输入数据

				CvArr* avg, //平均（输出）

				CvArr* eigenvalues, //特征值（输出）

				CvArr* eigenvectors, //特征向量（输出）

				int flags );//输入数据中的特征向量是怎么放的，比方CV_PCA_DATA_AS_ROW

最后，说下PCA的缺点：PCA将全部的样本（特征向量集合）作为一个总体对待，去寻找一个均方误差最小意义下的最优线性映射投影，而忽略了类别属性，而它所忽略的投影方向有可能刚好包括了重要的可分性信息

嗯，最后的最后——好了，没了，的确是最后了

强烈推荐：一篇能把PAC说得非常透彻的文章《特征向量物理意义》：http://blog.sina.com.cn/s/blog_49a1f42e0100fvdu.html

关于PCA算法的一点学习总结的更多相关文章

PCA算法学习（Matlab实现）
PCA(主成分分析)算法,主要用于数据降维,保留了数据集中对方差贡献最大的若干个特征来达到简化数据集的目的. 实现数据降维的步骤: 1.将原始数据中的每一个样本用向量表示,把所有样本组合起来构成一个矩 ...
OpenCV学习(35) OpenCV中的PCA算法
PCA算法的基本原理可以参考:http://www.cnblogs.com/mikewolf2002/p/3429711.html 对一副宽p.高q的二维灰度图,要完整表示该图像,需要m = ...
PCA算法 | 数据集特征数量太多怎么办？用这个算法对它降维打击！
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第27文章,我们一起来聊聊数据处理领域的降维(dimensionality reduction)算法. 我们都知道,图片 ...
PCA算法是怎么跟协方差矩阵/特征值/特征向量勾搭起来的?
PCA, Principle Component Analysis, 主成份分析, 是使用最广泛的降维算法. ...... (关于PCA的算法步骤和应用场景随便一搜就能找到了, 所以这里就不说了. ) ...
Netflix工程总监眼中的分类算法：深度学习优先级最低
Netflix工程总监眼中的分类算法:深度学习优先级最低摘要:不同分类算法的优势是什么?Netflix公司工程总监Xavier Amatriain根据奥卡姆剃刀原理依次推荐了逻辑回归.SVM.决策树 ...
用Python实现随机森林算法，深度学习
用Python实现随机森林算法,深度学习拥有高方差使得决策树(secision tress)在处理特定训练数据集时其结果显得相对脆弱.bagging(bootstrap aggregating 的缩 ...
关联规则算法Apriori的学习与实现
转自关联规则算法Apriori的学习与实现首先我们来看,什么是规则?规则形如"如果-那么-(If-Then-)",前者为条件,后者为结果.关联规则挖掘用于寻找给定数据集中项之间的 ...
Raft算法，从学习到忘记
Raft算法,从学习到忘记 --Raft算法阅读笔记. --Github 概述说到分布式一致性算法,可能大多数人的第一反应是paxos算法.但是paxos算法一直以来都被认为是难以理解,难以实现.S ...
模式识别（1）——PCA算法
作者:桂. 时间:2017-02-26 19:54:26 链接:http://www.cnblogs.com/xingshansi/articles/6445625.html 声明:转载请注明出处, ...

随机推荐

【JAVA】导出jar包时，Class files on classpath not found
是因为\META-INF\MANIFEST.MF文件里面配置错误错误版本 Manifest-Version: 1.0Class-Path: 正确版本 Manifest-Version: 1.0Cla ...
转: bower 客户端库管理工具
概述常用操作库的安装库的搜索和查看库的更新和卸载列出所有库配置文件.bowerrc 库信息文件bower.json 相关链接概述注:bower下载安装依赖库实际上是使用git进行下载. ...
AttributeError: 'module' object has no attribute 'Thread'
$ python thread.py starting at: 2015-08-05 00:24:24Traceback (most recent call last): File "th ...
Sicily-1028
一．题意: 算出汉诺塔移动序列中对应位置的号码,数据规模很大,所以不能单纯递归,而是要找出汉诺塔序列的规律. 二．汉诺塔数列为了得出最少的移动步数,当n为偶数时,最上 ...
/export/App/zz/phantomjs-1.9.7-linux-x86_64/bin
/export/App/zz/phantomjs-1.9.7-linux-x86_64/bin
Runtime.exec使用错误导致延迟.md
这篇文章是纪录了一个bug解决的过程,可是我还是没有可以真正地找出bug的缘由.希望大牛可以详解. 问题的发现当接触的系统越来越大的时候,对于系统的性能越来越高的时候,找到表面问题的真正原因就慢慢地 ...
用nodejs安装hexo，将hexo部署到github
跌跌撞撞写这篇博文,希望下一篇可以好点运行环境:最新版本的nodejs + git 安装好nodejs 和 git ,注册好github账号,新建仓库****.github.io(****为gith ...
ajax 基础
<html><head><script type="text/javascript">function showHint(str){var xm ...
html相关介绍
HTML(超文本标记语言) 超文本标记语言,即HTML(Hypertext Markup Language),是用于描述网页文档的一种标记语言 XHTML1.0 可扩展超文本置标语言(eXtensi ...
用反射写自己的DataTable转为对应的Mod
之前写过类似的方法,今天做项目的时候又遇到了,以前的代码没有保存,导致又得重新写场景:当我们定义自己的很多模型(Mods)的时候,而数据库读取出来的却是DataSet,DataTable类型的时候, ...

关于PCA算法的一点学习总结

关于PCA算法的一点学习总结的更多相关文章

随机推荐

热门专题