PCA与特征选取

一、什么是PCA

PCA，即PrincipalComponents Analysis，也就是主成份分析；

通俗的讲，就是寻找一系列的投影方向，高维数据按照这些方向投影后其方差最大化（方差最大的即是第一主成份，方差次大的为第二主成份...

如下图：数据点沿该方向投影后，方差最大，投影之后，由于各个点之间的距离之最大化的，因此彼此之间是最容易区分的

二、一些应用

1、数据降维

比如比较常见的人脸识别，假设有10副脸部图像，每副图像存贮为512*512大小的矩阵，经过特征提取后features可能为10000甚至更多，形成一个10*10000的矩阵；针对如此多的特征进行识别计算量很大同时也没有必要（因为一部分特征就已经反应了脸部的大部分信息）。但同时，人为的（指主观的）对这些特征进行筛选也很可能会把很多有用的信息剔除掉了；这时PCA就派上用场了，通过PCA降维的方法就可以控制特征的多少了(通常取Score>85%的前N个主成份就够了，还视具体情况而定吧）。关于PCA降维的应用与理论，PCA算法学习_1(OpenCV中PCA实现人脸降维)，讲的很清楚了。

2、特征分析、选择

常用PCA进行数据降维，但使用PCA进行特征选择的案例并不常见。而使用PCA、小波变换等方法可以做到将维数降低、以简化后续分类等过程的复杂度，但这些降维方法本身的计算量也不小，在一些应用场景中需要在线实时的进行数据处理时，在保障模型预测准确性的基础上，模型当然越简单消耗的资源越少越好。面对海量特征，其中每个特征对模型预测准确性的贡献是有所不同的，某个特征与PCA主成分方向夹角越小(可用余弦相似性衡量)，该特征对PCA主成分的贡献就越大，新特征F与原特征矩阵X的关系可用X的特征向量A联系：

F=Af

三维情况下，新特征Ｆ与原特征ｆ变换关系表示为：

则原特征ｆｊ对新特征F的贡献通过下式计算：

贡献度Conｊ的大小及衡量了原有的某个特征对所有新特征的重要程度。

若原特征维数巨大，在线分析的应用中对其进行PCA的降维操作也有一定的计算量。在模型构建之初，即可使用PCA方法，通过计算特征贡献度Con，选取贡献度大的一些特征来直接训练模型以及后续的分类预测工作。

以上是个人实践中的一些总结，欢迎批评指正～

PCA与特征选取的更多相关文章

特征选取1-from sklearn.feature_selection import SelectKBest
sklearn实战-乳腺癌细胞数据挖掘(博主亲自录制视频) https://study.163.com/course/introduction.htm?courseId=1005269003& ...
转：scikit-learn的GBDT工具进行特征选取。
http://blog.csdn.net/w5310335/article/details/48972587 使用GBDT选取特征 2015-03-31 本文介绍如何使用scikit-learn的GB ...
scikit-learn的GBDT工具进行特征选取。
http://blog.csdn.net/w5310335/article/details/48972587 使用GBDT选取特征 2015-03-31 本文介绍如何使用scikit-learn的GB ...
[模式识别].(希腊)西奥多里蒂斯<第四版>笔记5之__特征选取
1,引言有关模式识别的一个主要问题是维数灾难.我们将在第7章看到维数非常easy变得非常大. 减少维数的必要性有几方面的原因.计算复杂度是一个方面.还有一个有关分类器的泛化性能. 因此,本章的主要任 ...
吴裕雄 python 机器学习——数据预处理过滤式特征选取SelectPercentile模型
from sklearn.feature_selection import SelectPercentile,f_classif #数据预处理过滤式特征选取SelectPercentile模型 def ...
吴裕雄 python 机器学习——数据预处理过滤式特征选取VarianceThreshold模型
from sklearn.feature_selection import VarianceThreshold #数据预处理过滤式特征选取VarianceThreshold模型 def test_Va ...
吴裕雄 python 机器学习——数据预处理包裹式特征选取模型
from sklearn.svm import LinearSVC from sklearn.datasets import load_iris from sklearn.feature_select ...
特征选取方法PCA与LDA
一.主成分分析(PCA)介绍什么是主成分分析? 主成分分析是一种用于连续属性降维的方法,把多指标转化为少数几个综合指标. 它构造了原始属性的一个正交变换,将一组可能相关的变量转化为一组不相关的变 ...
[译]使用scikit-learn进行机器学习(scikit-learn教程1)
原文地址:http://scikit-learn.org/stable/tutorial/basic/tutorial.html 翻译:Tacey Wong 概要: 该章节,我们将介绍贯穿scikit ...

随机推荐

Linux下查看alert日志文件的两种方法
--linux下查看alert日志文件的两种方法: --方法1: SQL> show parameter background_dump_dest; NAME TYPE VALUE ------ ...
delphi 线程教学第四节：多线程类的改进
第四节:多线程类的改进 1.需要改进的地方 a) 让线程类结束时不自动释放,以便符合 delphi 的用法.即 FreeOnTerminate:=false; b) 改造 Create 的参数 ...
jspacker压缩及解压缩研究(js eval)
起因: 在研究爬虫的时候发现很多网站都出现了同一种方式的js混淆,并且名字都是pde.js,怀疑是使用了同一款混淆工具,所以研究一下. 这款工具叫JS Packer,并不是专门的混淆工具,而是一款js ...
if-case-循环语句
IF语句 drop procedure if exists p_hello_world; create procedure p_hello_world(in v_id int) begin ) the ...
MySQL系列教程（五）
MyCAT MyCat是基于阿里开源的Cobar产品而研发,Cobar的稳定性.可靠性.优秀的架构和性能以及众多成熟的使用案例使得MYCAT一开始就拥有一个很好的起点,站在巨人的肩膀上,我们能看到更远 ...
Android简易实战教程--第四十七话《使用OKhttp回调方式获取网络信息》
在之前的小案例中写过一篇使用HttpUrlConnection获取网络数据的例子.在OKhttp盛行的时代,当然要学会怎么使用它,本篇就对其基本使用做一个介绍,然后再使用它的接口回调的方式获取相同的数 ...
Android Studio精彩案例(三)《模仿微信ViewPage+Fragment实现方式二》
转载本专栏文章,请注明出处,尊重原创 .文章博客地址:道龙的博客写在前面的话:此专栏是博主在工作之余所写,每一篇文章尽可能写的思路清晰一些,属于博主的"精华"部分,不同于以往专栏 ...
Android Studio提交库至Bintray jCenter从入门到放弃
文:http://blog.csdn.net/sk719887916/article/details/52473914 作者:Tamic 详细文章请看:[Gradle系列]Gradle发布module ...
RxJava（四） concatMap操作符用法详解
欢迎转载,转载请标明出处: http://blog.csdn.net/johnny901114/article/details/51533282 本文出自:[余志强的博客] concatMap操作符的 ...
Android Multimedia框架总结（六）C++中MediaPlayer的C/S架构
转载请把头部出处链接和尾部二维码一起转载,本文出自: http://blog.csdn.net/hejjunlin/article/details/52435789 前面几节中,都是通过java层调用 ...

PCA与特征选取

PCA与特征选取的更多相关文章

随机推荐

热门专题