PCA(主成分分析)的简单理解

PCA(Principal Components Analysis)，它是一种“投影(projection)技巧”，就是把高维空间上的数据映射到低维空间。比如三维空间的一个球，往坐标轴方向投影，变成了一个圆。球是3维的，圆是2维的。在球变成圆的这个投影过程中，丢失了原来物体(球)的一部分“性质”---圆不是球了，只有面积没有体积了；也保留了原来物体的一部分性质---圆和球还是很像的……

而对于一个训练样本y而言，假设它有M个特征(M维)，y={y₁, y₂,...y_M}，通过PCA，进行投影，降维成D维(M>D)。为什么要降维？最主要的两个原因是：

①可视化，我们只能看到一维、二维、三维空间上的物体，当某物体需要4维或以上特征表示时，只能想象了……

②特征选择(feature selection)，比如说采集到的某个样本由 20维特征组成，其中有一些特征属于“噪音(noise)"，而由于某些原因，我们不想要这些“噪音”。又比如说，存在特征冗余，描述一个球，可以用如下特征：(体积、面积、直径、半径)，其实我只需要知道半径、直径、面积、体积这些都可以通过公式求出来。因此，体积、面积、直径这些特征，相对于半径来说，是冗余的特征。

如何降维？

PCA降维的目标就是：找到一种投影方式，将原来的M维样本y 变成 D维样本x，并且使得投影之后的D维样本x，能够尽可能多地保存原来的样本y中的信息。由于将y投影成x，可以有不同的投影方向，那哪个投影方向比较好呢？即，能够尽可能多地保存原来的样本y中的信息呢？

maintains the characteristics of the original object as much as possible

可以使用方差来衡量投影方向的好坏。如下图：

上图中有“两团点”，在聚类算法中称为有两个聚簇。将这两个簇中的点往B方向投影，B箭头指向的那条直线上的点，表示投影之后得到的新样本点，已经看不出有两个簇了。而此时，得到的方差是σ_²B=8.35.

往A方向投影，A箭头指向的那条直线上的点，还能够明显地看出有两类，即还能够保存“两个簇“的结构，这说明投影方向A比B 要好，因为原来的样本点有两个簇，而往A方向投影后，还能看出有两个簇。此时得到的方差σ_²A=17.37.

这表明：可以使用投影后的所有样本点的方差大小，来衡量投影方向的好坏！

假设有N个样本点，用Y表示，每个样本点是M维的。现在使用PCA降维，降成D维的，用X表示。X中还是有N个样本点，只是每个样本的维数变成D维的了。

这种投影方式，用矩阵乘法表示：X_N*D=Y_N*M*W_M*D

对于投影之后的样本x 的第d个特征x_nd而言，有：

x_n=w₁^T*y_n ,x_n=w₂^T*y_{n ，....}x_nd=w_d^T*y_n

x_n=（x_n1,x_n2,...x_nd)^T=W^T*y_n

也就是说，PCA降维的本质是：找到一个M*D维的矩阵W。可以对W=(w₁,w₂,...w_d)进行一些约束：||w_i||=1，且w^T_i*w_j=0 (j != i)，只要W满足：X=Y*W即可。

在数学上，PCA投影是一种线性变换。因为，根据线性变换的定义：

给定函数L: Rⁿ-->R^m，如果：

对于任意的x belongs to Rⁿ，a 属于实数R，有L(a*x)=a*L(x)
对于任意的x，y belongs to Rⁿ，有L(x+y)=L(x)+L(y)

则称函数L是一个线性变换。线性变换对加法和数乘封闭。上面的条件1，表示L对数乘封闭；条件2，表示L对加法封闭。

而对于矩阵A而言， A*x=b，是满足线性变换的定义的。比如，对于向量x和y，A(x+y)=A*x + A*y；对于实数a，A(a*x)=a*A*x

将矩阵A 作用于向量x 上，即矩阵A与向量x相乘，就相当于函数L 作用于x上。

因此，由x_n=（x_n1,x_n2,...x_nd)^T=W^T*y_n，可知：PCA是一个线性变换。

回到公式：X_N*D=Y_N*M*W_M*D，如何选择合适的W矩阵呢?----使用方差最大来确定W矩阵。因为方差可以衡量投影方向的好坏。

而将矩阵A与向量u相乘，其实就是改变了向量u的方向和大小而已。但是，如果向量u是矩阵A的特征向量，那么 A*u 不会改变向量u的方向。如下图：

在求解投影后的样本集X 的方差之前，先假设原始样本集Y的每一维特征的均值为0（m个0），即y^¯¯=[0,0,...0]^T。为了简化讨论，假设将原来的M维降成 D=1维。此时，W矩阵就退化为只有一个向量。即寻找一个向量w，对于Y中任何一个样本y_n=(y_n1,y_n2,...y_nm)，有x_n =(x_n1,x_n2,...x_nd)=(x_n1)= w^T*y_n

根据公式：x_n=w^T*y_n得到样本集X的均值为：

再根据方差的定义，和 X的均值为0，故X的方差为：

对于样本集Y而言，根据样本协方差矩阵的定义和 y的均值y^¯¯=0，可知：C与样本协方差矩阵密切相关。

因此，要想最大化X的方差，就是最大化w^TCw，而C是一个确定的值---由Y的协方差矩阵决定了。因此，我们的目标是尽可能地使w大，而根据我们前面的约束：||w||=1。故最大化w^TCw可以使用拉格朗日乘子，转化成如下的约束优化问题：

通过求偏导数，求得：使L最大化的w的公式：Cw=λw。而这刚好是特征向量的定义，λ是矩阵C的特征值，w则是对应的特征向量。

由于 ||w||=w^Tw=1，σ² = w^TCw，左边乘上w^Tw，得到：σ² *w^Tw=w^TCw，也即：σ²w=Cw，因此方差σ²就是特征值λ，而最大化方差，其实就是选择矩阵C的最大化的特征值而已，相应的变换向量w，其实就是特征值对应的特征向量。

因此，更一般地，将原来的样本集Y，M维特征降到 D维，其实就是计算矩阵C（与Y的协方差矩阵息息相关）的特征值和特征向量，由于 C 是一个M*M维的矩阵，因此一共有 m 个特征值，及其对应的 m 个特征向量。而我们只需要选择前D个最大的特征值对应的特征向量，并将之作为线性变换矩阵 W 即可。

参考文献：《a first course in machine learning》第七章

原文：http://www.cnblogs.com/hapjin/p/6728697.html

PCA(主成分分析)的简单理解的更多相关文章

关于PCA主成分分析的一点理解
PCA 即主成分分析技术,旨在利用降维的思想,把多指标转化为少数几个综合指标. 假设目前我们的数据特征为3,即数据维度为三,现在我们想将数据降维为二维,一维: 我们之前的数据其实就是三维空间中的一个个 ...
【转】浅谈对主成分分析（PCA）算法的理解
以前对PCA算法有过一段时间的研究,但没整理成文章,最近项目又打算用到PCA算法,故趁热打铁整理下PCA算法的知识.本文观点旨在抛砖引玉,不是权威,更不能尽信,只是本人的一点体会. 主成分分析(PCA ...
用PCA(主成分分析法)进行信号滤波
用PCA(主成分分析法)进行信号滤波此文章从我之前的C博客上导入,代码什么的可以参考matlab官方帮助文档现在网上大多是通过PCA对数据进行降维,其实PCA还有一个用处就是可以进行信号滤波.网上 ...
机器学习之PCA主成分分析
前言以下内容是个人学习之后的感悟,转载请注明出处~ 简介在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性.人们自然希望变量个数较少而得到的信息较多.在很 ...
PCA主成分分析Python实现
作者:拾毅者出处:http://blog.csdn.net/Dream_angel_Z/article/details/50760130 Github源代码:https://github.com/c ...
机器学习 - 算法 - PCA 主成分分析
PCA 主成分分析原理概述用途 - 降维中最常用的手段目标 - 提取最有价值的信息( 基于方差 ) 问题 - 降维后的数据的意义 ? 所需数学基础概念向量的表示基变换协方差矩阵协方差优 ...
PCA主成分分析（上）
PCA主成分分析 PCA目的最大可分性(最大投影方差) 投影优化目标关键点推导为什么要找最大特征值对应的特征向量呢? 之前看3DMM的论文的看到其用了PCA的方法,一开始以为自己对于PCA已 ...
git的简单理解及基础操作命令
前端小白一枚,最近开始使用git,于是花了2天看了廖雪峰的git教程(偏实践,对于学习git的基础操作很有帮助哦),也在看<git版本控制管理>这本书(偏理论,内容完善,很不错),针对所学 ...
简单理解Struts2中拦截器与过滤器的区别及执行顺序
简单理解Struts2中拦截器与过滤器的区别及执行顺序当接收到一个httprequest , a) 当外部的httpservletrequest到来时 b) 初始到了servlet容器传递给一个标 ...

随机推荐

简单聊聊WebSocket
一.概述上一篇文章<浅析一次HTTP请求>我们分析了简单的一次 HTTP 请求具体是怎么样完成的,分析了 HTTP 协议的数据结构,如何连接,如何断开,又是如何多路复用的,那么今天我们来 ...
加载样式TTFB waiting时间长
1.谷歌浏览器64位 2.在调试网页的时候,每回修改一个,刷新时,速度很慢 3.结果很恼火.每调试一回等半天.效率低下.... 解决办法是: "在每个CSS规则的后面加一个空行". ...
Codeforces 1076D Edge Deletion（最短路树）
题目链接:Edge Deletion 题意:给定一张n个顶点,m条边的带权无向图,已知从顶点1到各个顶点的最短路径为di,现要求保留最多k条边,使得从顶点1到各个顶点的最短距离为di的顶点最多.输出m ...
Who Gets the Most Candies? POJ - 2886 （线段树）
按顺时针给出n个小孩,n个小孩每个人都有一个纸,然后每个人都有一个val,这个val等于自己的因子数,如果这个val是正的,那就顺时针的第val个孩子出去,如果是负的话,就逆时针的第val个孩子出去, ...
CANOE入门（三）
最好的学习方式是什么?模仿.有人会问,那不是山寨么?但是我认为,那是模仿的初级阶段,当把别人最好的设计已经融化到自己的血液里,变成自己的东西,而灵活运用的时候,才是真正高级阶段.正所谓画虎画皮难画骨. ...
JavaScript深入系列（一）--原型和原型链详解
构造函数创建对象首先我们先使用构造函数创建一个对象: function Person(){} var person = new Person(); person.name = 'tom'; cons ...
JDK和CGLIB动态代理区别
背景:虽然自己了解这两种代理的区别,但是面试时候还是答的很模糊,需要好好总结. 前言JDK动态代理实现原理(jdk8):https://blog.csdn.net/yhl_jxy/article/de ...
C#面向对象中类的继承和扫描顺序和接口
1. 类的分类:普通基类.抽象基类(abstract class)1. 类的扫描顺序:a.先近后远 b.(向上扫描)以谁身份声明的变量就在谁身上开始扫描, 2. 扫描的特殊情况:普通基类 ...
第六节，TensorFlow编程基础案例-保存和恢复模型(中)
在我们使用TensorFlow的时候,有时候需要训练一个比较复杂的网络,比如后面的AlexNet,ResNet,GoogleNet等等,由于训练这些网络花费的时间比较长,因此我们需要保存模型的参数. ...
C++对象作为返回值的问题
#include "stdio.h" class Object{ public: int i; Object& method1(){ return *this; } }; ...

PCA(主成分分析)的简单理解

PCA(主成分分析)的简单理解的更多相关文章

随机推荐

热门专题