一、预备知识

减少过拟合的方法有：(1)增加数据（2）正则化（3）降维

维度灾难：从几何角度看会导致数据的稀疏性

举例1：正方形中有一个内切圆，当维度D趋近于无穷大时，圆内的数据几乎为0，所有的数据集中于球外(空壳)

举例2：圆内有个内圆，当维度D趋近于无穷大时，环形内的数据与外圆的数据比为1，说明所有的数据集中于环中(空壳)

样本均值 & 样本方差的矩阵表示

二、PCA：一个中心 + 两个基本点（最大投影方差、最小重构距离）

1、最大投影方差角度

2、最小重构代价角度

3、SVD角度

主成分分析（PCA）：先得到方向（主成分），再得到坐标

主坐标分析（PCoA）：直接得到坐标

4、概率角度（probabilistic PCA，P-PCA）

GMM与P-PCA的区别在于，GMM的隐变量是离散的，而P-PCA的隐变量是连续的。

5、PCA算法总结

这里对PCA算法做一个总结。作为一个非监督学习的降维方法，它只需要特征值分解，就可以对数据进行压缩，去噪。因此在实际场景应用很广泛。为了克服PCA的一些缺点，出现了很多PCA的变种，比如为解决非线性降维的KPCA，还有解决内存限制的增量PCA方法Incremental PCA，以及解决稀疏数据降维的PCA方法Sparse PCA等。

PCA算法的主要优点有：

仅仅需要以方差衡量信息量，不受数据集以外的因素影响。　
各主成分之间正交，可消除原始数据成分间的相互影响的因素。
计算方法简单，主要运算是特征值分解，易于实现。

PCA算法的主要缺点有：

主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强。
方差小的非主成分也可能含有对样本差异的重要信息，因降维丢弃可能对后续数据处理有影响。

参考文献：

【1】机器学习(28)【降维】之sklearn中PCA库讲解与实战

【2】PCA的数学原理

【3】PCA主成分分析学习总结

机器学习理论基础学习5--- PCA的更多相关文章

机器学习理论基础学习12---MCMC
作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础.比如分 ...
机器学习理论基础学习3.2--- Linear classification 线性分类之线性判别分析(LDA)
在学习LDA之前,有必要将其自然语言处理领域的LDA区别开来,在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),是一种处理文档的主题 ...
机器学习理论基础学习4--- SVM（基于结构风险最小化）
一.什么是SVM? SVM(Support Vector Machine)又称为支持向量机,是一种二分类的模型.当然如果进行修改之后也是可以用于多类别问题的分类.支持向量机可以分为线性和非线性两大类. ...
机器学习理论基础学习13--- 隐马尔科夫模型 (HMM)
隐含马尔可夫模型并不是俄罗斯数学家马尔可夫发明的,而是美国数学家鲍姆提出的,隐含马尔可夫模型的训练方法(鲍姆-韦尔奇算法)也是以他名字命名的.隐含马尔可夫模型一直被认为是解决大多数自然语言处理问题最为 ...
机器学习理论基础学习1——频率派 VS 贝叶斯派
频率派贝叶斯派 theta是个未知的常量,X是随机变量, theta是个随机变量,X是随机变量 MLE最大似然估计 MAE最大后验概率统计机器学习,优化问题 1)建立模型.概率 2)定义损失函数 ...
机器学习理论基础学习3.1--- Linear classification 线性分类之感知机PLA（Percetron Learning Algorithm）
一.感知机(Perception) 1.1 原理: 感知机是二分类的线性模型,其输入是实例的特征向量,输出的是事例的类别,分别是+1和-1,属于判别模型. 假设训练数据集是线性可分的,感知机学习的目标 ...
机器学习理论基础学习3.3--- Linear classification 线性分类之logistic regression（基于经验风险最小化）
一.逻辑回归是什么? 1.逻辑回归逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的. logistic回归也称为逻辑回归,与线性回归这样输出 ...
机器学习理论基础学习17---贝叶斯线性回归(Bayesian Linear Regression)
本文顺序一.回忆线性回归线性回归用最小二乘法,转换为极大似然估计求解参数W,但这很容易导致过拟合,由此引入了带正则化的最小二乘法(可证明等价于最大后验概率) 二.什么是贝叶斯回归? 基于上面的讨论 ...
机器学习理论基础学习3.4--- Linear classification 线性分类之Gaussian Discriminant Analysis高斯判别模型
一.什么是高斯判别模型? 二.怎么求解参数?

随机推荐

【JavaScript】如何判断一个对象是未定义的？（已解决）
JavaScript中,如果使用了一个未定义的变量,会有这样的错误提示:XXX未定义. 代码中,怎样才能判定一个对象是否定义了呢? 使用 typeof 示例: if("undefined& ...
Android studio 运行demo时一直卡在"Installing APKS"时的解决办法
现象一 File --- Settings 二看图操作
Oracle中V$SESSION等各表的字段解释，Oracle官方解释
一.常用的视图 1.会话相关视图 View Description V$PROCESS Contains information about the currently active processe ...
VS2003安装Opencv1.0 windows系统 win7
一．步骤下载安装opencv1.0 安装文件我上传到百度网盘分享连接 http://pan.baidu.com/s/1o8na0aA 配置电脑windows环境变量配置VS2003全局设置 ...
【CF850E】Random Elections FWT
[CF850E]Random Elections 题意:有n位选民和3位预选者A,B,C,每个选民的投票方案可能是ABC,ACB,BAC...,即一个A,B,C的排列.现在进行三次比较,A-B,B-C ...
修改nose_html_reporting，解决输出带中文时，不能生成html文件
在使用nose_html_reporting时,如果测试输出中带有中文,那么html输出会失败,提示如下: 提示'ascii'编码码失败这是因为在string.IO中取回来的数据与当前脚本中声明的编 ...
mysql补充（4）数据完整性
数据完整性(Data Integrity)是指数据的精确性(Accuracy) 和可靠性(Reliability).(补充mysql数据完整性和约束) 它是应防止数据库中存在不符合语义规定的数据和防止 ...
undefined类型
undefined类型只有一个特殊的值 undefined 在使用var声明变量但未对其加以初始化,这个变量的值就是undefined 值是undefined的情况: 1.显示声明并初始化变量值 ...
zookeeper 安装的三种模式
Zookeeper安装 zookeeper的安装分为三种模式:单机模式.集群模式和伪集群模式. 单机模式首先,从Apache官网下载一个Zookeeper稳定版本,本次教程采用的是zookeeper ...
初次使用visual studio
之前一直听闻VS是世界上最强IDE,但是害怕他的体积庞大,一直不敢使用.我一直喜欢轻便简洁的东西,编译器也是一样,所以刚开始我使用的是C-FREE5,虽然界面略显粗糙,和低调奢华有内涵的VS比起来,真 ...

机器学习理论基础学习5--- PCA