Principal Component Analysis

算法优缺点：

优点：降低数据复杂性，识别最重要的多个特征
缺点：不一定需要，且可能损失有用的信息
适用数据类型：数值型数据

算法思想：

降维的好处：

使得数据集更易使用
降低很多算法计算开销
去除噪声
使得结果易懂

主成分分析（principal component analysis，PCA）的思想是将数据转换到新的坐标系，这个坐标系的选择是由数据本身决定的，第一维是原始数据中方差最大的方向，第二个是与第一维正交且方差最大的，一直重复。。。
主成分分析中使用数据集的协方差矩阵和特征值分析来获得。

函数：

pca(dataMat, topNfeat=999999)
由于主成分分析基本上可以说是算个矩阵的问题，而numpy在这方面又帮我们做好了，所以函数很简单，就是先去平均值，然后计算协方差矩阵和其特征值，最后选出最大的topNfeat个，最后用这些特征向量将源数据转到新的空间。当然使用的时候有两种方式，一种是跟限定个数，另一种则是通过数据压缩比来完成的。

 #coding=utf-8

 from numpy import *

 def loadDataSet(filename, delim='\t'):

     fr = open(filename)

     stringArr = [line.strip().split(delim) for line in fr.readlines()]

     datArr = [map(float,line) for line in stringArr]

     return mat(datArr)

 def pca(dataMat, topNfeat=999999):

     meanVals = mean(dataMat, axis=0)

     meanRemoved = dataMat - meanVals

     covMat = cov(meanRemoved, rowvar=0)

     eigVals, eigVects = linalg.eig(mat(covMat))

     eigValInd = argsort(eigVals)

     eigValInd = eigValInd[:-(topNfeat+1):-1]

     redEigVects = eigVects[:,eigValInd]

     lowDDataMat = meanRemoved * redEigVects

     reconMat = (lowDDataMat * redEigVects.T) + meanVals

     return lowDDataMat, reconMat 

 def main():

     dataMat = loadDataSet('testSet.txt')

     lowDMat, reconMat = pca(dataMat, 1)

     print shape(lowDMat)

 if __name__ == '__main__':

     main()

机器学习笔记索引

来自为知笔记(Wiz)

PCA数据降维的更多相关文章

主成分分析PCA数据降维原理及python应用（葡萄酒案例分析）
目录主成分分析(PCA)——以葡萄酒数据集分类为例 1.认识PCA (1)简介 (2)方法步骤 2.提取主成分 3.主成分方差可视化 4.特征变换 5.数据分类结果 6.完整代码总结: 1.认识P ...
[机器学习]-PCA数据降维：从代码到原理的深入解析
&*&:2017/6/16update,最近几天发现阅读这篇文章的朋友比较多,自己阅读发现,部分内容出现了问题,进行了更新. 一.什么是PCA:摘用一下百度百科的解释 PCA(Prin ...
初识PCA数据降维
PCA要做的事降噪和去冗余,其本质就是对角化协方差矩阵. 一.预备知识 1.1 协方差分析对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这 ...
数据降维-PCA主成分分析
1.什么是PCA? PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法.PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特 ...
Coursera《machine learning》--（14）数据降维
本笔记为Coursera在线课程<Machine Learning>中的数据降维章节的笔记. 十四.降维 (Dimensionality Reduction) 14.1 动机一:数据压缩 ...
数据降维技术（2）—奇异值分解（SVD）
上一篇文章讲了PCA的数据原理,明白了PCA主要的思想及使用PCA做数据降维的步骤,本文我们详细探讨下另一种数据降维技术—奇异值分解(SVD). 在介绍奇异值分解前,先谈谈这个比较奇怪的名字:奇异值分 ...
机器学习实战（Machine Learning in Action）学习笔记————10.奇异值分解(SVD)原理、基于协同过滤的推荐引擎、数据降维
关键字:SVD.奇异值分解.降维.基于协同过滤的推荐引擎作者:米仓山下时间:2018-11-3机器学习实战(Machine Learning in Action,@author: Peter Harr ...
TSNE数据降维学习【转载】
转自:https://blog.csdn.net/u012162613/article/details/45920827 https://www.jianshu.com/p/d6e7083d7d61 ...
数据降维(Dimensionality reduction)
数据降维(Dimensionality reduction) 应用范围无监督学习图片压缩(需要的时候在还原回来) 数据压缩数据可视化数据压缩(Data Compression) 将高维的数据转 ...

随机推荐

【BZOJ-1426】收集邮票概率与期望DP
1426: 收集邮票 Time Limit: 1 Sec Memory Limit: 162 MBSubmit: 261 Solved: 209[Submit][Status][Discuss] ...
POJ 2942 Knights of the Round Table
Knights of the Round Table Time Limit: 7000MS Memory Limit: 65536K Total Submissions: 10911 Acce ...
.Net 中的反射(反射特性) - Part.3
反射特性(Attribute) 可能很多人还不了解特性,所以我们先了解一下什么是特性.想想看如果有一个消息系统,它存在这样一个方法,用来将一则短消息发送给某人: // title: 标题:author ...
理清Java中的编码解码转换
1.字符集及编码方式概括:字符编码方式及大端小端详细:彻底理解字符编码可以通过Charset.availableCharsets()获取Java支持的字符集,以JDK8为例,得到其支持的字符集: ...
Html：form表单
1:onsubmit 事件:会在表单中的确认按钮被点击时发生. <form action="" method="post" name="form ...
【Tomcat 6.0官方文档翻译】—— 简介
Tomcat作为使用最多的web容器,研究其原理过程,对掌握java web开发有很重要的影响. 因此下定决心,从官方文档入手,好好学学web相关的知识. 介绍本篇是Apache Tomca ...
微信网页版APP - 网页微信客户端电脑版体验
微信网页版很早就出来了,解决了很多人上班不能玩手机的问题.微信电脑版-网页微信客户端,直接安装在桌面的微信网页版,免去了开浏览器的麻烦.双击就启动了,和其他的应用程序一样:运行过程中可以隐藏在桌面右下 ...
PHP采集curl应用的一点小疑惑
CURL 是 Client URL Library Functions 的缩写,由 Daniel Stenberg 创建,更多内容可以参考他的网站.最近几天突然对 HTTP 采集有了兴趣.之前我在做这 ...
《征服 C 指针》摘录5：函数形参和空的下标运算符[]
一.函数的形参的声明 C 语言可以像下面这样声明函数的形参: void func(int a[]) { // ... } 对于这种写法,无论怎么看都好像要向函数的参数传递数组. 可是,在 C ...
jquery--常用的函数2
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

PCA数据降维