更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：https://www.cnblogs.com/nickchen121/p/11686958.html

主成分分析(PCA)

一、维数灾难和降维

在KNN算法中曾讲到，对于高维数据，会出现数据样本稀疏、距离计算困难等问题。但是这种问题并不是仅仅针对KNN算法，只是在KNN算法中这种问题会被放大，而其他的机器学习算法也会因为高维数据对训练模型造成极大的障碍，这种问题一般被称为维数灾难(curse of dimensionality)。

解决维数灾难最常用的方法是降维(dimension reduction)，即通过某种数学变换将原始高维特征空间转变为一个低维子空间，在这个子空间中样本密度大幅提高，距离计算也变得更容易。

# 维数灾难和降维图例

import numpy as np

import matplotlib.pyplot as plt

from matplotlib.font_manager import FontProperties

from sklearn.decomposition import PCA

%matplotlib inline

font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

np.random.seed(0)

X = np.empty((100, 2))

X[:, 0] = np.random.uniform(0, 100, size=100)

X[:, 1] = 0.75 * X[:, 0] + 3. + np.random.normal(0, 10, size=100)

pca = PCA(n_components=1)

X_reduction = pca.fit_transform(X)

X_restore = pca.inverse_transform(X_reduction)

plt.scatter(X[:, 0], X[:, 1], color='g', label='原始数据')

plt.scatter(X_restore[:, 0], X_restore[:, 1],

            color='r', label='降维后的数据')

plt.annotate(s='',xytext=(40,60),xy=(65,30),arrowprops=dict(arrowstyle='-',color='b',linewidth=5))

plt.legend(prop=font)

plt.show()

如上图所示，绿点即原始高维空间中的样本点，红点即我们降维后的样本点。由于图中的高维是二维，低维是一维，所以样本在低维空间是一条直线。

接下来我们的目标就是聊一聊如何做到把高维空间样本点映射到低维空间，即各种降维算法。

二、主成分分析学习目标

维数灾难和降维
主成分分析两个条件
基于主成分分析两个条件推导主成分分析
核主成分分析
主成分分析优缺点

三、主成分分析详解

主成分分析(principal component analysis，PCA)是最常用的一种降维方法，我们已经利用“维数灾难和降维图例”解释了降维的过程，PCA的降维过程则是尽可能的使用数据最主要的特征来代表数据原有的所有特征。但是有没有同学想过为什么使用PCA降维是上图的红点组成的线而不是蓝线呢？这里就需要说到我们PCA的两个条件了。

3.1 主成分分析两个条件

对于“维数灾难和降维图例”中的红线和蓝线我们可以把它看成一个超平面\(S\)，理论上红线和蓝线构成的超平面都可以做到对样本特征的降维，但是一般我们希望这种能够做到降维的超平面满足以下两个条件

最近重构性：样本点到这个超平面的距离都足够近
最大可分性：样本点到这个超平面上的投影尽可能分开

基于最近重构性和最大可分性，就可以得到主成分分析的两种等价推导。

3.2 基于最近重构性推导PCA

3.2.1 主成分分析目标函数

我们首先从最近重构性推导PCA，即样本点到这个超平面的距离足够近。

假设\(m\)个\(n\)维数据\((x^{(1)},x^{(2)},\cdots,x^{(m)})\)都已经进行了中心化，即\(\sum_{i=1}^mx^{(i)}=0\)；在假设投影变换后得到的新坐标系为\(\{w_1,w_2,\cdots,w_n\}\)，其中\(w_i\)是标准正交基向量，即\(||w_i||=1，w_i^Tw_j=0\)，其中\(i\neq{j}\)。

如果把数据从\(n\)维降到\(n'\)维，即丢弃新坐标系中的部分坐标，则新的坐标系为\(\{w_1,w_2,\cdots,w_{n'}\}\)，则样本点\(x^{(i)}\)在\(n'\)维坐标系中的投影为

\[z_{i} = (z_{i1},z_{i2},\cdots,z_{id'})^T
\]

其中\(z_{ij}=w_j^Tx_i\)，是\(x_i\)在低维坐标系下第\(j\)维的坐标。

如果我们用\(z^{(i)}\)重构\(x^{(i)}\)，则可以恢复的原始数据为

\[\hat{x_i}=\sum_{j=1}^{d'}z_{ij}w_j
\]

现在考虑整个样本集，既可以获得原样本点\(x_i\)到基于投影重构的样本点\(\hat{x_i}\)之间的距离为

\[\begin{align}
\sum_{i=1}^m{||\hat{x_i}-x_i||}^2 & = \sum_{i=1}^m{||Wz_i-x_i||}^2 \\
& = \sum_{i=1}^m(Wz_i)^T(Wz_i)-2\sum_{i=1}^m(Wz_i)^Tx_i+\sum_{i=1}^mx_i^Tx_i \\
& = \sum_{i=1}^mz_i^Tz_i - 2\sum_{i=1}^mz_i^TW^Tx_i+\sum_{i=1}^mx_i^Tx_i \\
& = \sum_{i=1}^mz_i^Tz_i-2\sum_{i=1}^mz_i^Tz_i+\sum_{i=1}^mx_i^Tx_i \\
& = -\sum_{i=1}^mz_i^Tz_i + \sum_{i=1}^mx_i^Tx_i \\
& = -tr(W^T(\sum_{i=1}^mx_ix_i^T)W)+\sum_{i=1}^mx_i^Tx_i \\
& = -tr(W^TXX^TW)+\sum_{i=1}^mx_i^Tx_i
\end{align}
\]

由于涉及过多矩阵推导，此处不多赘述，看不懂的可以跳过。

其中\(W=(w_1,w_2,\cdots,w_d)\)，其中\(\sum_{i=1}^mx_i^Tx_i\)是数据集的协方差矩阵，\(W\)的每一个向量\(w_j\)是标准正交基，而\(\sum_{i=1}^mx_i^Tx_i\)是一个常量，最小化上式等价于

\[\begin{align}
& \underbrace{min}_W\,-tr(W^TXX^TW) \\
& s.t.\,W^TW=I
\end{align}
\]

3.2.2 主成分分析目标函数优化

主成分分析目标函数为

\[\begin{align}
& \underbrace{min}_W\,-tr(W^TXX^TW) \\
& s.t.\,W^TW=I
\end{align}
\]

最小化该目标函数其实并不难，可以发现最小化目标函数对应的\(W\)由协方差矩阵\(XX^T\)最大的\(n'\)个特征值对应的特征向量组成，利用拉格朗日乘子法可得

\[J(W)=-tr(W^TXX^TW+\lambda_i(W^TW-I))
\]

对\(W\)求导等于0即可得

\[\begin{align}
& -XX^TW+\lambda{W}=0 \\
& XX^TW = \lambda{W}
\end{align}
\]

从上式可以看出，\(W\)是\(XX^T\)的\(n'\)个特征向量组成的矩阵，而\(\lambda\)有若干个特征值组成的矩阵，特征值在对角线上，其余位置为0。当我们将数据集从\(n\)维降到\(n'\)维时，需要找到最大的\(n'\)个特征值对应的特征向量。这个\(n'\)个特征向量组成的矩阵\(W\)即我们需要的矩阵。对于原始数据集，我们只需要用\(z_i=W^Tx_i\)，就可以把原始数据集降到最小投影距离的\(n'\)维数据集。

3.3 基于最大可分性推导PCA

从最大可分性出发，样本点\(x_i\)在新空间中超平面的投影是\(W^Tx_i\)，如果所有样本点的投影尽可能分开，则应该使投影后样本点的方差最大化。

投影后样本点的方差是\(\sum_{i=1}^mW^Tx_ix_i^TW\)，因此目标函数可以写成

\[\begin{align}
& \underbrace{max}_W\,-tr(W^TXX^TW) \\
& s.t.\,W^TW=I
\end{align}
\]

上式其实和基于最近重构性推导PCA的目标函数其实差不多，其中一个是加负号的最小化，一个是最大化。

对基于最大可分性推导得到的目标函数最大化，利用拉格朗日乘子法可以得到

\[XX^TW = -\lambda{W}
\]

3.4 核主成分分析(KPCA)

PCA中，我们假设存在一个线性的超平面，可以对数据投影，但工业上大多数时候数据都是线性不可分的，这里就需要用到和核SVM一样的思想，即核主成分分析(kernelized PCA，KPCA)，是基于核技巧对非线性可分数据进行降维。

KPCA首先会把数据从\(n\)维映射到更高的\(N\)维，让数据线性可分后又会把数据映射回低维\(n'\)，即\(n'<n<N\)。

假设我们将在高维特征空间把数据投影到由\(W=(w_1,w_2,\cdots,w_d)\)确定的超平面上，则\(W\)为

\[ZZ^TW = (\sum_{i=1}^mz_iz_i^T)W=\lambda{W}
\]

其中\(z_i\)是样本点再高维特征空间中的像，即特征分解问题变为

\[\begin{align}
W & = {\frac{1}{\lambda}}(\sum_{i=1}^mz_iz_i^T)W \\
& = \sum_{i=1}^mz_i{\frac{z_i^TW}{\lambda}} \\
& = \sum_{i=1}^mz_i\alpha_i^j
\end{align}
\]

其中\(a_i^j={\frac{1}{\lambda}}z_i^TW\)是\(\alpha_i\)的第\(j\)个分量。

假设\(z_i\)是由原始样本点\(x_i\)通过映射\(\phi\)产生，即\(z_i=\phi(x_i)\)，则特征分解问题变为

\[(\sum_{i=1}^m\phi(x_i)\phi(x_i)^T)W = \lambda{W}
\]

\(W\)变为

\[W=\sum_{i=1}^m\phi(x_i)\alpha_i^j
\]

由于我们并不知道\(\phi\)是什么，一般情况下\(\phi\)不需要显示计算，通过核函数转换即可。因此引入核函数

\[k(x_i,x_j)=\phi(x_i)^T\phi(x_j)
\]

将核函数和\(w_j\)代入特征分解问题，可得

\[K\alpha^j=\lambda\alpha^j
\]

其中\(K\)为\(k\)对应的核矩阵，对于上述特征值分解问题，去\(K\)最大的\(d'\)个特征值对应的特征向量即可。

对于新样本\(x\)，他投影后的第\(j\quad(j=1,2,\cdots,d')\)维坐标为

\[\begin{align}
z_j & = W^T\phi(x) \\
& = \sum_{i=1}^m\alpha_i^j\phi(x_i)^T\phi(x) \\
& = \sum_{i=1}^m\alpha_i^jk(x_i,x)
\end{align}
\]

从上述特征分解可以看出，KPCA需要对所有样本求和，因此它的计算开销较大。

四、主成分分析流程

4.1 输入

样本集\(D=\{x_1,x_2,\cdots,x_n\}\)；低维空间维数\(n'\)。

4.2 输出

降维后的样本集\(D'\)。

4.3 流程

对所有样本进行中心化：\(x_i\leftarrow{x_i}-{\frac{1}{m}}\sum_{i=1}^m{x_i}\)
计算样本的协方差矩阵\(XX^T\)
对协方差矩阵\(XX^T\)做特征值分解
取最大的\(n'\)个特征值所对应的特征向量\((w_1,w_2,\cdots,w_{n'})\)，将所有的特征向量标准化后，组成特征向量矩阵\(W\)
对样本集中的每一个样本\(x^{(i)}\)，转化为新的样本\(z^{(i)}=W^Tx^{(i)}\)
得到输出样本集\(n'=(z^{(1)},z^{(2)},\cdots,z^{(m)})\)

降维后低维空间的维数\(n'\)通常是用户事先指定的，一般选择使用交叉验证的方法选择最好的\(n'\)值。对于PCA，有时候也会从重构的角度指定一个降维到的主成分比重阈值\(t\)，这个阈值的范围一般是\((0,1]\)，然后选取使下式成立的最小\(n'\)值

\[{\frac{\sum_{i=1}^{n'}\lambda_i}{\sum_{i=1}^{n}\lambda_i}}\geq{t}
\]

五、主成分分析优缺点

5.1 优点

只需要以方差衡量信息量，不受数据集以外的因素影响
主要计算是特征值分解，计算简单，易于实现

5.2 缺点

主成分由于是降维得到，没有原始样本那样较强的解释性
由于PCA降维会丢掉不少的信息，可能对后续的数据处理有影响

六、小结

PCA作为一个无监督学习的降维方法，只需要对特征值分解，就可以压缩数据，对数据去噪声。但是PCA还是有不少缺点的，针对PCA的缺点，也出现了很多PCA的变种，如解决非线性数据降维的KPCA；解决内存限制的增量的Incremental PCA；解决稀疏数据降维的Sparse PCA等。

由于PCA涉及过多的数学公式，以及有着较强逻辑和空间处理。如果不是很懂可以结合代码然后多看几遍。

05-03 主成分分析(PCA)的更多相关文章

一步步教你轻松学主成分分析PCA降维算法
一步步教你轻松学主成分分析PCA降维算法 (白宁超 2018年10月22日10:14:18) 摘要:主成分分析(英语:Principal components analysis,PCA)是一种分析.简 ...
深度学习入门教程UFLDL学习实验笔记三：主成分分析PCA与白化whitening
主成分分析与白化是在做深度学习训练时最常见的两种预处理的方法,主成分分析是一种我们用的很多的降维的一种手段,通过PCA降维,我们能够有效的降低数据的维度,加快运算速度.而白化就是为了使得每个特征能有同 ...
http://www.cnblogs.com/Matrix54/archive/2012/05/03/2481260.html
http://www.cnblogs.com/Matrix54/archive/2012/05/03/2481260.html
线性判别分析（LDA）, 主成分分析(PCA)及其推导【转】
前言: 如果学习分类算法,最好从线性的入手,线性分类器最简单的就是LDA,它可以看做是简化版的SVM,如果想理解SVM这种分类器,那理解LDA就是很有必要的了. 谈到LDA,就不得不谈谈PCA,PCA ...
降维（一）----说说主成分分析(PCA)的源头
降维(一)----说说主成分分析(PCA)的源头降维系列: 降维(一)----说说主成分分析(PCA)的源头降维(二)----Laplacian Eigenmaps --------------- ...
主成分分析PCA（转载）
主成分分析PCA 降维的必要性 1.多重共线性--预测变量之间相互关联.多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯. 2.高维空间本身具有稀疏性.一维正态分布有68%的值落于正负标准差之 ...
机器学习 —— 基础整理（四）特征提取之线性方法：主成分分析PCA、独立成分分析ICA、线性判别分析LDA
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...
机器学习课程-第8周-降维(Dimensionality Reduction)—主成分分析(PCA)
1. 动机一:数据压缩第二种类型的无监督学习问题,称为降维.有几个不同的的原因使你可能想要做降维.一是数据压缩,数据压缩不仅允许我们压缩数据,因而使用较少的计算机内存或磁盘空间,但它也让我们加快 ...
主成分分析(PCA)原理及推导
原文:http://blog.csdn.net/zhongkejingwang/article/details/42264479 什么是PCA? 在数据挖掘或者图像处理等领域经常会用到主成分分析,这样 ...

随机推荐

react-router url参数更新但是页面不更新的解决办法
今天发现, 当使用react-router(v4.2.2)时,路由需要传入参数, 但是如果路由跳转时,url仅仅改变的是参数部分,如从hello/1跳转到hello/2,此时虽然参数更新了,但是页面是 ...
为什么不建议使用Date，而是使用Java8新的时间和日期API？
Java 8:新的时间和日期API 在Java 8之前,所有关于时间和日期的API都存在各种使用方面的缺陷,因此建议使用新的时间和日期API,分别从旧的时间和日期的API的缺点以及解决方法.Java ...
Elasticsearch之更新
public class UpdateElasticAPI { private static RestClient restClient; static { restClient=RestClient ...
一文看懂java的IO流
废话不多说,直接上代码 import com.fasterxml.jackson.databind.ObjectMapper; import java.io.*; import java.nio.ch ...
联想thinkpad如何关闭触摸板
Tinkpad系列很多关闭触摸屏的功能的方法都是没有的!!!比如说1.Fn+F6,或者Fn+某个按键...直接关闭没用比如说2.控制面板,鼠标/键盘,找到触摸开关...间接关闭没用比如说3.我的电脑, ...
SeekBar拖动条
seekbar拖动条,通过滑块的位置值的改变,来对某些数据进行调节,比如音量调节; 改变滑块的外观可以通过android:thumb属性完成实例:拖动滑块改变图片透明度 <LinearLayo ...
Docker下dubbo开发三部曲之三：java开发
在前两章<Docker下dubbo开发,三部曲之一:极速体验>和<Docker下dubbo开发,三部曲之二:本地环境搭建>中,我们体验了dubbo环境搭建以及服务的发布和消费, ...
体验一下：AndroidX
背景今天在更新 ButterKnife 到最新版本的时候出现了一个问题,我引入的是 10.1.0 最新版本: implementation 'com.jakewharton:butterknife: ...
【linux】【jenkins】自动化运维三整合gitlab、docker发布vue项目
由于工作需要,这里我先创建一个vue的工程. 1.首先安装好gitlab相关插件:GitLab.GitLab Hook.NodeJS 插件安装参考:https://www.cnblogs.com/jx ...
Java常识及数据类型
上次介绍完了JDK的下载,安装,以及配置了环境变量 .这次我们来讲讲Java的常识及Java的数据类型; 常见Java开发工具编辑器: 1:UltraEdit; 2:EditPlus等; 集成开发环 ...

05-03 主成分分析(PCA)