14.降维

觉得有用的话,欢迎一起讨论相互学习~Follow Me

14.5重建压缩表示 Reconstruction from Compressed Representation

使用PCA，可以把 1000 维的数据压缩到100 维特征，或将三维数据压缩到一二维表示。所以，如果如果把PCA任务是一个压缩算法，应该能回到这个压缩表示之前的形式，回到原有的高维数据的一种近似。下图是使用PCA将样本\(x^{(i)}映射到z^{(i)}\)上

即是否能通过某种方法将z上的点重新恢复成使用\(x_{(1)}和x_{(2)}\)二维方式表示的数据。

方法
使用\(X_{appox}\)表示重建样本的n维向量(n * 1)，使用\(U_{reduce}\)表示使用PCA算法时选取的K个特征向量组成的特征矩阵(n * k)，使用\(Z\)表示使用PCA降维后数据样本的新特征(k * 1).有：\[X_{appox}=U_{reduce} * Z\] 即

14.6主成分数量的选取 Choosing the number of pricipal components

平均平方映射误差(Average Squared Projection Error)和总变差(Total Variation)

PCA的目的是减少 平均平方映射误差 ，，即是要减少 原始样本\(x^{(i)}\) 和 通过重建后的样本\(x_{appox}^{(i)}\)(低维映射点) 的平方差的平均值
\[\frac{1}{m}\sum^{m}_{i=1}||x^{(i)}-x_{appox}^{(i)}||^{2}\]
数据的总变差(Total Variation)：定义为原始数据样本的长度的均值:\[\frac{1}{m}\sum^{m}_{i=1}||x^{(i)}||^{2}\] 意为：平均来看原始数据距离零向量的距离。

K值选择的经验法则
在 平均平方映射误差 和 总变差 的比值尽可能小的情况下 (一般选择0.01) 选择尽可能小的K值, 对于此比例小于0.01，专业来说：保留了数据99%的差异性(99% of variance is retained)

选择了参数K，并且99%的差异性得以保留
常用的其他数值也有 0.05和0.10，则95%和90%的差异性得以保留。

主成分数量选择算法

效率较低的方法

先令 K=1，然后进行主要成分分析，获得 \(U_reduce\) 和\(z^{(1)},z^(2),...z^{(m)}\),然后计算其低维映射点\(x_{appox}^{(i)}\),然后计算 平均平方映射误差 和 总变差 的比值是否小于1%。如果不是的话再令 K=2，如此类推，直到找到可以使得比例小于 1%的 最小K值

更好的方法
还有一些更好的方式来选择 K，当计算协方差矩阵sigma，调用“svd”函数的时候，我们获得三个参数：\[[U, S, V] = svd(sigma)\] ,其中U是特征向量,而S是一个对角矩阵，对角线的元素为 \(S_{11},S_{22},S_{33}...S_{nn}\) 而矩阵的其余元素都是0。
可以证明的是(在此只说明公式不给出证明过程)，以下两个式子相等，即：

所以，原有的条件可以转化为：
根据上式找出满足条件的最小的K值即可。

14.7 主成分分析法的应用建议

测试集和验证集应使用和训练集一样的特征向量\(U_{reduce}\)

假使我们正在针对一张 100×100 像素的图片进行某个计算机视觉的机器学习，即总共有 10000 个特征。

第一步是运用主要成分分析将数据压缩至 1000 个特征
然后对训练集运行学习算法
在预测时，采用训练集上学习而来的 \(U_{reduce}\) 将输入的特征 x 转换成特征向量 z，然后再进行预测

Note 如果我们有交叉验证集合测试集，也采用对训练集学习而来的 \(U_{reduce}\)

PCA不是用于解决过拟合的方法
一个常见错误使用主要成分分析的情况是，将PCA用于减少过拟合（通过减少特征的数量）。这样做 非常不好，应该使用正则化化处理。原因在于主要成分分析只是近似地丢弃掉一些特征，它并不考虑任何与 结果变量y(即预测的标签) 有关的信息，因此可能会丢失非常重要的特征。PCA毕竟无监督学习的方法，任何的特征，无论是输入属性还是标签属性，其都一样对待，没有考虑到输入信息的减少对标签y的影响，通过PCA舍弃掉一部分输入属性却没有对标签做任何补偿。然而当我们进行正则化化处理时，由于逻辑回归或者神经网络或者SVM会考虑到正则化及输入属性的改变对结果变量(预测标签)的影响，并对其作出反馈，所以正则化不会丢掉重要的数据特征。

PCA不是必要的方法
PCA是当数据量大，所以要 压缩数据维度，减少数据占用内存，加快训练速度 时使用的，或者是需要通过 数据可视化 理解数据时使用的，而 不是一种必需的方法。默认把PCA加入到机器学习系统中而不考虑不加入PCA时系统的表现是不对的。由于PCA会损失掉一部分数据，也许正是数据中十分关键的维度 ，所以机器学习系统应当首先 不考虑PCA的使用 ，而使用常规的训练方法， 只在有必要的时候（算法运行太慢或者占用太多内存） 才考虑采用主要成分分析。

[吴恩达机器学习笔记]14降维5-7重建压缩表示/主成分数量选取/PCA应用误区的更多相关文章

[吴恩达机器学习笔记]14降维3-4PCA算法原理
14.降维觉得有用的话,欢迎一起讨论相互学习~Follow Me 14.3主成分分析原理Proncipal Component Analysis Problem Formulation 主成分分析( ...
吴恩达机器学习笔记（六） —— 支持向量机SVM
主要内容: 一.损失函数二.决策边界三.Kernel 四.使用SVM (有关SVM数学解释:机器学习笔记(八)震惊!支持向量机(SVM)居然是这种机) 一.损失函数二.决策边界对于: 当C非常 ...
吴恩达机器学习笔记（八） —— 降维与主成分分析法(PCA)
主要内容: 一.降维与PCA 二.PCA算法过程三.PCA之恢复四.如何选取维数K 五.PCA的作用与适用场合一.降维与PCA 1.所谓降维,就是将数据由原来的n个特征(feature)缩减为k ...
Machine Learning——吴恩达机器学习笔记（酷
[1] ML Introduction a. supervised learning & unsupervised learning 监督学习:从给定的训练数据集中学习出一个函数(模型参数), ...
[吴恩达机器学习笔记]12支持向量机5SVM参数细节
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.5 SVM参数细节标记点选取标记点(landma ...
[吴恩达机器学习笔记]12支持向量机3SVM大间距分类的数学解释
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.3 大间距分类背后的数学原理- Mathematic ...
[吴恩达机器学习笔记]12支持向量机2 SVM的正则化参数和决策间距
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.2 大间距的直观理解- Large Margin I ...
[吴恩达机器学习笔记]12支持向量机1从逻辑回归到SVM/SVM的损失函数
12.支持向量机觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 12.1 SVM损失函数从逻辑回归到支持向量机为了描述 ...
[吴恩达机器学习笔记]11机器学习系统设计3-4/查全率/查准率/F1分数
11. 机器学习系统的设计觉得有用的话,欢迎一起讨论相互学习~Follow Me 参考资料斯坦福大学 2014 机器学习教程中文笔记 by 黄海广 11.3 偏斜类的误差度量 Error Metr ...

随机推荐

Android 中的广播机制
Android 中的广播机制 Android 中的广播,按照广播响应范围,可以分为应用内广播和全局广播.按照广播的接收方式,可以分为标准广播和有序广播. 广播的分类响应范围应用内广播:此类广播只能 ...
CS小分队第一阶段冲刺站立会议（5月12日）
昨日成果:2048整体界面效果经组员韩雪冬美化之后档次提升了好几个,我为其添加了保存并显示最高分数的功能. 遇到困难:当我想把access数据库由accdb改成mdb时,发生未知错误 ,导致数据库无法 ...
HDU 5418 Victor and World 允许多次经过的TSP
题目链接: hdu: http://acm.hdu.edu.cn/showproblem.php?pid=5418 bestcoder(中文): http://bestcoder.hdu.edu.cn ...
IT小小鸟阅读笔记
人生就像是一艘漂泊的船,你努力滑行了就会找到成功的彼岸,否则就漂泊一生.在这个物欲横流的时代有太多的诱惑使我们静不下心来,但是我们应该时时刻刻警醒自己要做一些对自己成长有意义的事,程序员虽然幸苦但是作 ...
C++ Primer Plus学习：第十章
过程性编程和面向对象编程面向对象编程(OOP)的特性: 抽象封装和数据隐藏多态继承代码的可重用性抽象和类类是一种将抽象转化为用户定义类型的C++工具,它将数据表示和操纵数据的方法合成一个 ...
iOS-封装UIPickerView
创建类WJPickerView继承与UIView ProvinceModel是省市的model,包含属性 @property (nonatomic, strong) NSString *provinc ...
ASP.NET存储Session的StateServer
由于公司要对服务器做个负载均衡,所以Web项目在两台前端服务器(web1.web2)各部署了一份.但是在项目中会用到session.当一开始在web1上登陆后,由于web1之后负载可能会变大,就有可能 ...
MySQL专题 1 分布式部署数据库同步问题 BinLog
什么是 Binlog MySQL Server 有四种类型的日志——Error Log.General Query Log.Binary Log 和 Slow Query Log. 第一个是错误日志, ...
两个float 怎么比较大小
转自:http://blog.csdn.net/mydriverc2/article/details/49888947 float 类型不能比较相等或不等,但可以比较>,<,>=,& ...
Java Servlet简介
一.了解Servlet的概念 Servlet定义 Servlet是基于Java技术的Web组件,由容器管理并产生动态的内容.Servlet引擎作为WEB服务器的扩展提供支持Servlet的功能.Se ...

[吴恩达机器学习笔记]14降维5-7重建压缩表示/主成分数量选取/PCA应用误区

14.降维

觉得有用的话,欢迎一起讨论相互学习~Follow Me

14.5重建压缩表示 Reconstruction from Compressed Representation

方法

14.6主成分数量的选取 Choosing the number of pricipal components

平均平方映射误差(Average Squared Projection Error)和总变差(Total Variation)

K值选择的经验法则

选择了参数K，并且99%的差异性得以保留

主成分数量选择算法

效率较低的方法

更好的方法

14.7 主成分分析法的应用建议

测试集和验证集应使用和训练集一样的特征向量\(U_{reduce}\)

PCA不是用于解决过拟合的方法

PCA不是必要的方法

[吴恩达机器学习笔记]14降维5-7重建压缩表示/主成分数量选取/PCA应用误区的更多相关文章

随机推荐

热门专题