前言

在用数据对模型进行训练时,通常会遇到维度过高,也就是数据的特征太多的问题,有时特征之间还存在一定的相关性,这时如果还使用原数据训练模型,模型的精度会大大下降,因此要降低数据的维度,同时新数据的特征之间还要保持线性无关,这样的方法称为主成分分析(Principal component analysis,PCA),新数据的特征称为主成分,得到主成分的方法有两种:直接对协方差矩阵进行特征值分解和对数据矩阵进行奇异值分解(SVD)。

一、主成分分析基本思想

  数据X由n个特征降维到k个特征,这k个特征保留最大信息(方差)。对原坐标系中的数据进行主成分分析等价于进行坐标系的旋转变化,将数据投影到新的坐标系下,新坐标系的第一坐标轴表示第一主成分,第二坐标轴表示第二主成分,以此类推。数据在每一轴上的坐标值的平方表示相应变量的方差,PCA的目标就是方差最大的变量,才能保留尽可能多的信息,因为方差越大,表示数据分散程度越大,所包含的信息也就越多。

二、PCA的基本步骤

  • step1:对数据进行规范化(也称为标准化),因为涉及距离计算,因此要消除量纲的影响;

    这里的数据标准化采用z-score:X = X - mean(X) / std(X)
  • step2:对数据X进行旋转变化(前言提到的两种方法)

三、数学推导

  假设X是m*n的矩阵,\(x_k\)是投影前的数据(k=1,2,…,n),\(x_k^{'}\)是投影后的数据,e是新的坐标轴。投影长度\(α_k=e^tx_k\),可以将\(e^t\)看成是cosθ,新数据\(x_k^{'}\)在新坐标轴e下的坐标为\(α_k e\),表示从原点出发,沿着e方向走了\(α_k\)距离。根据方差最大的原则,即\(α_k\)要最大,由勾股定理\(\alpha_k^2+\left \| x_kx_k{'}\right \|^2=\left\|o x_k\right\|^2\)可知,当\(α_k\)最大时,\(\left\|x_kx_k^{'}\right\|^2\)要最小,因此转换成求\(\left\|x_kx_k^{'}\right\|^2\)最小,约束条件是\(\left\|e\right\|=1\),数学表达式为:

\[\begin{cases}
min J(e)=\sum_{i=1}^n\left\|x_k^{'}-x_k\right\|^2\\
s.t. \left\|e\right\|=1
\end{cases}
\]

1. 完整的数学推导(结合第一部分的图)

\(min J(e)\\
=\sum_{i=1}^n\left\|x_k^{'}-x_k\right\|^2\\
=\sum_{i=1}^n\left\|\alpha_ke-x_k\right\|^2\\
=\sum_{i=1}^n\alpha_k^2\left\|e\right\|^2 - 2\sum_{i=1}^n\alpha_ke^tx_k + \sum_{i=1}^n\left\|x_k\right\|^2\\
=\sum_{i=1}^n\alpha_k^2-2\sum_{i=1}^n\alpha_k^2+\sum_{i=1}^n\left\|x_k\right\|^2\\
=-\sum_{i=1}^n\alpha_k^2+\sum_{i=1}^n\left\|x_k\right\|^2\\
=-\sum_{i=1}^ne^tx_kx_k^te+\sum_{i=1}^n\left\|x_k\right\|^2\)

要使\(-\sum_{i=1}^ne^tx_kx_k^te+\sum_{i=1}^n\left\|x_k\right\|^2\)最小,由于\(\sum_{i=1}^n\left\|x_k\right\|^2\)不包含e,因为转换为求\(\sum_{i=1}^ne^tx_kx_k^te\)的最大值,同时记\(S=\sum_{i=1}^nx_kx_k^t\),实际上,S是协方差X的协方差矩阵,问题可转化为

\[\begin{cases}
max\quad e^tSe\\
s.t. \quad \left\|e\right\|=1
\end{cases}
\]

对于上述优化问题,可以用拉格朗日乘子法求解:\(u=e^tSe-\lambda(e^te-1),\frac{\partial u}{\partial e} = 2Se-2\lambda e=0\),解得:\(Se = \lambda e\)

可以看出,满足条件的投影方向e(k个)是协方差矩阵S的前k大特征值对应的特征向量,因此PCA转化为求数据X的协方差矩阵的特征值,将特征值降序排序,对应的特征向量构成的矩阵就是所求的旋转矩阵

2. 求旋转矩阵

  • 基于特征值求解
  • 基于奇异值分解SVD

2.1 基于特征值求解

  就是一般的矩阵求特征值和特征向量的问题,此处不做详细介绍,需要注意的是,是对数据X的协方差矩阵\(X^TX\)求特征值和特征向量,前k个特征向量构成的矩阵P(此处默认P已经按照特征值的大小顺序进行排列,维度为n*k),那么新数据\(newX = X*P\),则newX由X的\(m*n\)变成\(m*k(k<n)\),此时数据已经降低维度了。

2.2 基于SVD求解PCA

三、奇异值分解SVD

3.1 什么是奇异值分解

  对于任意的矩阵\(A\in\mathbb{R}^{m*n}\),都可以将A分解成三个矩阵:

\[A=U\sum V^T,U\in\mathbb{R}^{m*m},\sum\in\mathbb{R}^{m*n},V\in\mathbb{R}^{n*n}
\]

并且U和V是正交阵,\(\sum\)是对角阵,即

\[UU^T=UU^{-1}=I,VV^T=VV^{-1}=I
\]

3.2 奇异值分解的几何解释

  本质上来说,奇异值分解是一个线性变换,对矩阵A进行奇异值分解可以看成是用一组正交基先进行旋转\((V^T e)\),再进行坐标缩放\((\sum V^T e)\),最后再进行坐标旋转\((U\sum V^T e)\),经过这三步操作,正交基可以变换成A,下面是一个简单的例子,用MATLAB可以对任意矩阵进行奇异值分解,并且输出三个矩阵。

3.3 如何求解\(U,\sum,V^T\)

  (以下由于编辑问题,会出现几个\(\sum^T\)的T出现在\(\sum\)上面)

  对于任意的矩阵都能进行因子分解,这显然是SVD最大的好处,但关键是如何求解三个因子矩阵呢?

3.3.1 求解U

已知\(A=U\sum V^T\),则有

\[AA^T=(U\sum V^T)(U\sum V^T)^T=U\sum V^TV\sum^TU^T=U(\sum\sum^T)U^T
\]

又因为U是正交阵,因此有

\[U^T=U^{-1},AA^T=U(\sum\sum^T)U^{-1}
\]

左右各乘以\(U^{-1}\),可以得到

\[AA^TU=U(\sum\sum^T)
\]

也就是U是矩阵\(AA^T\)的特征向量,\((\sum\sum^T)\)是特征值。

3.3.2 求解V

与求解U类似,通过\(AA^T\)来求解,最终可以得到

\[A^TAV=V(\sum^T\sum)
\]

也就是V是矩阵\(A^TA\)的特征向量,\((\sum^T\sum)\)是特征值

3.3.3 对角矩阵\(\sum\)

\(\sum\)里的元素成为奇异值,从3.3.1和3.3.2可以看出,对角矩阵\(\sum\)的奇异值是\(AA^T\)和\(A^TA\)的特征值的平方根,并且奇异值一定不小于0.以下是简单的证明:

令\(\lambda\)是\(A^TA\)的一个特征值,x是对应的特征向量,则

\[\left\|Ax\right\|^2=x^TA^TAx=\lambda x^Tx=\lambda\left\|x\right\|^2
\]

\[\lambda=\frac{\left\|Ax\right\|^2}{\left\|x\right\|^2}\geq0
\]

而奇异值\(\sigma\)是\(\lambda\)的平方根,因此也大于等于0.

3.3.4 SVD与PCA的关系

PCA的目标是求协方差矩阵\(X^TX\)的特征向量和特征值,而协方差矩阵的特征向量就是矩阵X奇异值分解后的右奇异向量V,用下图来说明PCA与SVD的关系



因此,经过PCA处理得到的新数据,其实就是对数据X做奇异值分解,然后乘上右奇异矩阵,或者左奇异矩阵乘上对角矩阵!

四、总结

  PCA是一种降维技术,主要用在特征提取。对于PCA,有两种方式:直接对数据的协方差矩阵进行特征向量的求解;对数据进行奇异值分解。实际上,后者会更优于前者。因为求解协方差矩阵的特征值以及特征向量时,有时会出现特征值为虚数,那么这时候算法会失效,而SVD求解出来的奇异值一定是非负数。除此之外,其实可以把PCA看做是对SVD的一种包装,如果实现了SVD,那么PCA也就实现了,而且更好的是,用SVD可以得到两个方向的PCA,而直接分解协方差矩阵,只能得到一个方向的PCA。

浅谈 PCA与SVD的更多相关文章

  1. [转]浅谈PCA的适用范围

    线性代数主要讲矩阵,矩阵就是线性变换,也就是把直线变成直线的几何变换,包括过原点的旋转.镜射.伸缩.推移及其组合.特征向量是对一个线性变换很特殊的向量:只有他们在此变换下可保持方向不变,而对应的特征值 ...

  2. 浅谈PCA

    最近在回顾PCA方面的知识,发现对于之前的很多东西有了新的理解,下面和大家分享下我的一些个人的理解 1.我们为什么要用PCA,它能解决我什么问题? PCA(Principal Component An ...

  3. 机器学习实战基础(二十三):sklearn中的降维算法PCA和SVD(四) PCA与SVD 之 PCA中的SVD

    PCA中的SVD 1 PCA中的SVD哪里来? 细心的小伙伴可能注意到了,svd_solver是奇异值分解器的意思,为什么PCA算法下面会有有关奇异值分解的参数?不是两种算法么?我们之前曾经提到过,P ...

  4. 浅谈 Fragment 生命周期

    版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 源码:AndroidDemo/Fragment 文中如有纰漏,欢迎大家留言指出. Fragment 是在 Android 3.0 中 ...

  5. 浅谈 LayoutInflater

    浅谈 LayoutInflater 版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰 源码:AndroidDemo/View 文中如有纰漏,欢迎大家留言指出. 在 Android 的 ...

  6. 浅谈Java的throw与throws

    转载:http://blog.csdn.net/luoweifu/article/details/10721543 我进行了一些加工,不是本人原创但比原博主要更完善~ 浅谈Java异常 以前虽然知道一 ...

  7. 浅谈SQL注入风险 - 一个Login拿下Server

    前两天,带着学生们学习了简单的ASP.NET MVC,通过ADO.NET方式连接数据库,实现增删改查. 可能有一部分学生提前预习过,在我写登录SQL的时候,他们鄙视我说:“老师你这SQL有注入,随便都 ...

  8. 浅谈WebService的版本兼容性设计

    在现在大型的项目或者软件开发中,一般都会有很多种终端, PC端比如Winform.WebForm,移动端,比如各种Native客户端(iOS, Android, WP),Html5等,我们要满足以上所 ...

  9. 浅谈angular2+ionic2

    浅谈angular2+ionic2   前言: 不要用angular的语法去写angular2,有人说二者就像Java和JavaScript的区别.   1. 项目所用:angular2+ionic2 ...

随机推荐

  1. element中的树形组件,如何获取父级菜单的id

    一般多选的树形组件,使用getCheckedNodes()方法只能获取到本级的菜单id,只有在子菜单全部选中的情况下才会选中上级.但我们想要不全选中子级的情况下也要获取它的上级,甚至上上级等,怎么办呢 ...

  2. js 面向对象 模拟日历

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  3. 【MVC】使用Jquery缓存数据

    前言 最近接手优化页面加载的任务. 分析其中一个原因是菜单页面ajax异步加载,页面很大,但是除非权限更改或者切换角色,否则每次请求返回数据不变,这个完全可以放在客户浏览器内进行缓存. 分析 粗略一分 ...

  4. chrome DevTools 里面 css样式里面 勾上 :hover 会将鼠标移上的效果一直保持,技巧:要在鼠标上的 div上 勾 :hover

    chrome DevTools 里面 css样式里面 勾上 :hover 会将鼠标移上的效果一直保持,技巧:要在鼠标上的 div上 勾 :hover

  5. 项目总结&读书笔记

    Python项目 01-函数版ATM 读书笔记 01-Effective Python

  6. docker系列详解<一>之docker安装

    1.Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker . 通过 uname -r 命令查看你当前的内核版本 $ ...

  7. Quantitative Proteomics of Enriched Esophageal and Gut Tissues from the Human Blood Fluke Schistosoma mansoni Pinpoints Secreted Proteins for Vaccine Development (解读人:张聪敏)

    文献名:Quantitative Proteomics of Enriched Esophageal and Gut Tissues from the Human Blood Fluke Schist ...

  8. (转载)Why you shouldn't use Entity Framework with Transactions

    Why you shouldn't use Entity Framework with Transactions EntityFramework This is a .net ORM Mapper F ...

  9. Django 配置使用日志

    一. Django中使用日志 Django中使用日志其实非常简单,只需要在项目使用的配置文件中(如果没有自定义,那么就是settings.py中)加以下设置即可,同时可以根据自己的需求进行修改: # ...

  10. asp.net net::ERR_ABORTED 500 (Internal Server Error) 无法加载JS CSS等文件的解决方法

    网站换服务器,部署上去后打开首页,js .css等文件始终无法加载,经过排查,问题出现在web.config文件中. <defaultDocument> <files> < ...