Principal Component Analysis(PCA)

概念

去中心化(零均值化): 将输入的特征减去特征的均值, 相当于特征进行了平移, \[x_j - \bar x_j\]
归一化(标准化): 将输入的特征减去特征的均值, 得到的差在除以特征的标准差, \[{{x_j-\bar x_j}\over{std(x_j)}}\]在进行PCA之前, 一定要进行零均值化或者标准化

用途

数据压缩(Data Compression)
数据可视化(Data Visualization)
提高算法执行效率

PCA实现步骤

数据零均值化或者标准化
计算样本矩阵的协方差矩阵Covariance, \[\Sigma={1\over{m}}\sum_{i=1}^{m} x^{(i)}x^{(i)T}\]
计算协方差矩阵的特征向量eigenvectors, \[[U, S, V] = svd(sigma)\]U即为特征向量矩阵
选择保留的特征, \[Ureduce = U(:, 1:k)\]
将Ureduce转为样本, $Z = Ureduce^TX$

数据还原

将被PCA处理过的数据尽可能的还原成原始数据
按照数学公式应该为$X^{(i)}_{approx} = (Ureduce^T)^{-1}Z^{(i)}$, 但是实际中, 采用估计的, $X^{(i)}_{approx}=UreduceZ^{(i)}$

PCA实现补充

如何选择k变量, 即保留的特征数量
- 设k从1开始递增迭代到PCA算法中
- 还原数据得到$X_{approx}$
- 比较\[{{{1\over{m}}\sum_{i=1}^m(x^{(i)}-x^{(i)}_{approx})^2}\over{{1\over{m}}\sum_{i=1}^mx^{(i)T}x^{(i)}}}\le0.01\]
- 如果小于0.01, 则表示当k取$\hat k$时, 我们保留了原始数据的99%

什么时候考虑PCA

在一开始处理数据的时候, 应该尽量使用原始数据, 当是在不行的时候再使用PCA处理

Principal Component Analysis(PCA)的更多相关文章

Principal Component Analysis(PCA) algorithm summary
Principal Component Analysis(PCA) algorithm summary mean normalization(ensure every feature has sero ...
（4）主成分分析Principal Component Analysis——PCA
主成分分析Principal Component Analysis 降维除了便于计算,另一个作用就是便于可视化. 主成分分析-->降维--> 方差:描述样本整体分布的疏密,方差越大-> ...
[zz] Principal Components Analysis (PCA) 主成分分析
我理解PCA应该分为2个过程:1.求出降维矩阵:2.利用得到的降维矩阵,对数据/特征做降维. 这里分成了两篇博客,来做总结. http://matlabdatamining.blogspot.com/ ...
PCA（Principal Component Analysis）主成分分析
PCA的数学原理(非常值得阅读)!!!! PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可 ...
从矩阵（matrix）角度讨论PCA（Principal Component Analysis 主成分分析）、SVD（Singular Value Decomposition 奇异值分解）相关原理
0. 引言本文主要的目的在于讨论PAC降维和SVD特征提取原理,围绕这一主题,在文章的开头从涉及的相关矩阵原理切入,逐步深入讨论,希望能够学习这一领域问题的读者朋友有帮助. 这里推荐Mit的Gilb ...
Andrew Ng机器学习公开课笔记–Principal Components Analysis (PCA)
网易公开课,第14, 15课 notes,10 之前谈到的factor analysis,用EM算法找到潜在的因子变量,以达到降维的目的这里介绍的是另外一种降维的方法,Principal Compo ...
主成分分析（principal components analysis, PCA）——无监督学习
降维的两种方式: (1)特征选择(feature selection),通过变量选择来缩减维数. (2)特征提取(feature extraction),通过线性或非线性变换(投影)来生成缩减集(复合 ...
Sparse Principal Component Analysis via Rotation and Truncation
目录对以往一些SPCA算法复杂度的总结 Notation 论文概述原始问题问题的变种算法固定$X$,计算$R$ 固定$R$,求解$X$ (\(Z =VR^{\mathrm{T ...
《principal component analysis based cataract grading and classification》学习笔记
Abstract A cataract is lens opacification caused by protein denaturation which leads to a decrease i ...

随机推荐

List分组迭代器
说明: 针对长度较大的List对象,可以分组批量进行处理, 如:长度为1000的List对象,可分为10组,每组100条,对数据进行业务逻辑处理... Source /**************** ...
sharepoint用户信息同步出错
首先使用工具定位问题,然后权限不够授予权限 C:\Program Files\Microsoft Office Servers\15.0\Synchronization Service\UIShell
手把手带你打造一个 Android 热修复框架
本文来自网易云社区作者:王晨彦 Application 处理上面我们已经对所有 class 文件插入了 Hack 的引用,而插入 dex 是在 Application 中,Application ...
leetcode 19. 删除链表的倒数第N个节点 JAVA
题目: 给定一个链表,删除链表的倒数第 n 个节点,并且返回链表的头结点. 示例: 给定一个链表: 1->2->3->4->5, 和 n = 2. 当删除了倒数第二个节点后,链 ...
881. Boats to Save People
The i-th person has weight people[i], and each boat can carry a maximum weight of limit. Each boat c ...
51nod-迷宫问题（Dijkstra算法）
关于Dijkstra算法的博文 http://www.cnblogs.com/skywang12345/p/3711512.html#anchor2 Dijkstra算法是一个经典的算法——他是荷兰计 ...
【lojg152】乘法逆元 2（数学）
题面传送门题解 orz Wa自动机这是一个可以$O(n)$求出$n$个数逆元的方案先把所有的数做一个前缀积,记为$s_i$ 然后我们用快速幂求出$s_n$的逆元,记为\(sv_ ...
[CF700E][JZOJ5558]Cool Slogan （后缀自动机+线段树）
题意翻译给出一个长度为$n$的字符串$s[1]$,由小写字母组成.定义一个字符串序列$s[1....k]$,满足性质:$s[i]$在$s[i-1]$ $(i>=2)$中出现至少两次(位置可重叠 ...
[ActionScript 3.0] 使TextField呈现手型的简单方法
有的人不知道这个方法,有时候为了给文本添加手型做了很多复杂的工作,虽然是可以实现,但心里有没有一种难以接受的感觉?那我们看看这个吧, 例子一看就懂: var str:String="显示手形 ...
北航软院2012级C#期末考试部分考题解答
博主注:本渣渣水平有限,文中若有不对的地方敬请指出,谢谢. 本文中大部分图片来自老师的PPT,感谢邵老师,想要的可以点击右边QQ联系我:) 一.选择题(2*15=30) 1.In C# what is ...

Principal Component Analysis(PCA)

Principal Component Analysis(PCA)

概念

用途

PCA实现步骤

数据还原

PCA实现补充

什么时候考虑PCA

Principal Component Analysis(PCA)的更多相关文章

随机推荐

热门专题