[机器学习笔记]主成分分析PCA简介及其python实现

　　主成分分析（principal component analysis）是一种常见的数据降维方法，其目的是在“信息”损失较小的前提下，将高维的数据转换到低维，从而减小计算量。

　　PCA的本质就是找一些投影方向，使得数据在这些投影方向上的方差最大，而且这些投影方向是相互正交的。这其实就是找新的正交基的过程，计算原始数据在这些正交基上投影的方差，方差越大，就说明在对应正交基上包含了更多的信息量。后面会证明，原始数据协方差矩阵的特征值越大，对应的方差越大，在对应的特征向量上投影的信息量就越大。反之，如果特征值较小，则说明数据在这些特征向量上投影的信息量很小，可以将小特征值对应方向的数据删除，从而达到了降维的目的。

　　PCA的全部工作简单点说，就是对原始的空间中顺序地找一组相互正交的坐标轴，第一个轴是使得方差最大的，第二个轴是在与第一个轴正交的平面中使得方差最大的，第三个轴是在与第1、2个轴正交的平面中方差最大的，这样假设在N维空间中，我们可以找到N个这样的坐标轴，我们取前r个去近似这个空间，这样就从一个N维的空间压缩到r维的空间了，但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小。

　　因此，关键点就在于：如何找到新的投影方向使得原始数据的“信息量”损失最少？

1.样本“信息量”的衡量

　　样本的“信息量”指的是样本在特征方向上投影的方差。方差越大，则样本在该特征上的差异就越大，因此该特征就越重要。以《机器学习实战》上的图说明，在分类问题里，样本的方差越大，越容易将不同类别的样本区分开。

　　图中共有3个类别的数据，很显然，方差越大，越容易分开不同类别的点。样本在X轴上的投影方差较大，在Y轴的投影方差较小。方差最大的方向应该是中间斜向上的方向（图中红线方向）。如果将样本按照中间斜向上的方向进行映射，则只要一维的数据就可以对其进行分类，相比二维的原数据，就相当降了一维。

在原始数据更多维的情况下，先得到一个数据变换后方差最大的方向，然后选择与第一个方向正交的方向，该方向是方差次大的方向，如此下去，直到变换出与原特征个数相同的新特征或者变换出前N个特征（在这前N个特征包含了数据的绝大部分信息），简而言之，PCA是一个降维的过程，将数据映射到新的特征，新特征是原始特征的线性组合。

2.计算过程（因为插入公式比较麻烦，就直接采用截图的方式）

3.python实现

#coding=utf-8

from numpy import *

'''通过方差的百分比来计算将数据降到多少维是比较合适的，

函数传入的参数是特征值和百分比percentage，返回需要降到的维度数num'''

def eigValPct(eigVals,percentage):

    sortArray=sort(eigVals) #使用numpy中的sort()对特征值按照从小到大排序

    sortArray=sortArray[-1::-1] #特征值从大到小排序

    arraySum=sum(sortArray) #数据全部的方差arraySum

    tempSum=0

    num=0

    for i in sortArray:

        tempSum+=i

        num+=1

        if tempsum>=arraySum*percentage:

            return num

'''pca函数有两个参数，其中dataMat是已经转换成矩阵matrix形式的数据集，列表示特征；

其中的percentage表示取前多少个特征需要达到的方差占比，默认为0.9'''

def pca(dataMat,percentage=0.9):

    meanVals=mean(dataMat,axis=0)  #对每一列求平均值，因为协方差的计算中需要减去均值

    meanRemoved=dataMat-meanVals

    covMat=cov(meanRemoved,rowvar=0)  #cov()计算方差

    eigVals,eigVects=linalg.eig(mat(covMat))  #利用numpy中寻找特征值和特征向量的模块linalg中的eig()方法

    k=eigValPct(eigVals,percentage) #要达到方差的百分比percentage，需要前k个向量

    eigValInd=argsort(eigVals)  #对特征值eigVals从小到大排序

    eigValInd=eigValInd[:-(k+1):-1] #从排好序的特征值，从后往前取k个，这样就实现了特征值的从大到小排列

    redEigVects=eigVects[:,eigValInd]   #返回排序后特征值对应的特征向量redEigVects（主成分）

    lowDDataMat=meanRemoved*redEigVects #将原始数据投影到主成分上得到新的低维数据lowDDataMat

    reconMat=(lowDDataMat*redEigVects.T)+meanVals   #得到重构数据reconMat

    return lowDDataMat,reconMat

Reference：

1. Peter Harrington，《机器学习实战》，人民邮电出版社，2013

2. http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.html (其中有PCA的计算实例)

3. 张学工，《模式识别》（第三版），清华大学出版社，2010

[机器学习笔记]主成分分析PCA简介及其python实现的更多相关文章

机器学习之主成分分析PCA原理笔记
1. 相关背景在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律.多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的 ...
【机器学习】--主成分分析PCA降维从初识到应用
一.前述主成分分析(Principal Component Analysis,PCA), 是一种统计方法.通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分. ...
[机器学习笔记]奇异值分解SVD简介及其在推荐系统中的简单应用
本文先从几何意义上对奇异值分解SVD进行简单介绍,然后分析了特征值分解与奇异值分解的区别与联系,最后用python实现将SVD应用于推荐系统. 1.SVD详解 SVD(singular value d ...
【机器学习】主成分分析PCA（Principal components analysis）
1. 问题真实的训练数据总是存在各种各样的问题: 1. 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余. 2. 拿到 ...
机器学习入门-主成分分析(PCA)
主成分分析: 用途:降维中最常用的一种方法目标:提取有用的信息(基于方差的大小) 存在的问题:降维后的数据将失去原本的数据意义向量的内积:A*B = |A|*|B|*cos(a) 如果|B| = ...
Python机器学习笔记：不得不了解的机器学习面试知识点（1）
机器学习岗位的面试中通常会对一些常见的机器学习算法和思想进行提问,在平时的学习过程中可能对算法的理论,注意点,区别会有一定的认识,但是这些知识可能不系统,在回答的时候未必能在短时间内答出自己的认识,因 ...
Python机器学习笔记：奇异值分解（SVD）算法
完整代码及其数据,请移步小编的GitHub 传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/MachineLearningNote 奇异值分解(Singu ...
Python机器学习笔记：sklearn库的学习
网上有很多关于sklearn的学习教程,大部分都是简单的讲清楚某一方面,其实最好的教程就是官方文档. 官方文档地址:https://scikit-learn.org/stable/ (可是官方文档非常 ...
机器学习1—简介及Python机器学习环境搭建
简介前置声明:本专栏的所有文章皆为本人学习时所做笔记而整理成篇,转载需授权且需注明文章来源,禁止商业用途,仅供学习交流.(欢迎大家提供宝贵的意见,共同进步) 正文: 机器学习,顾名思义,就是研究计算 ...

随机推荐

JWT总结
Json web token (JWT) 什么是JWT? Json web token (JWT), 是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准((RFC 7519).该toke ...
beta版本“足够好”/测试矩阵
能通过地图鱼相应的地点信息实时交互,便于用户操作. 测试矩阵
为什么HashMap不是线程安全的
电面突然被问到这个问题,之前看到过,但是印象不深,导致自己没有答出来,现在总结一下. HashMap的内部存储结构 transient Node<K,V>[] table; static ...
Haskell（一）------ Windos下环境配置
1.去官网下载安装包 2.然后运行安装包路径最好就不要改了. 3.打开命令行输入 cabal user-config init 会出现默认的放置配置文件的地址,然后到那个文件夹下修改config文件. ...
JS开发之CommonJs和AMD/CMD规范
CommonJS是主要为了JS在后端的表现制定的,他是不适合前端的,AMD(异步模块定义)出现了,它就主要为前端JS的表现制定规范. 在兼容CommonJS的系统中,你可以使用JavaScript开发 ...
grunt入门讲解1：grunt的基本概念和使用
Grunt和 Grunt 插件是通过 npm 安装并管理的,npm是 Node.js 的包管理器. Grunt 0.4.x 必须配合Node.js >= 0.8.0版本使用.老版本的 Node. ...
ElasticSearch 2 (15) - 深入搜索系列之多字段搜索
ElasticSearch 2 (15) - 深入搜索系列之多字段搜索摘要查询很少是简单的一句话匹配(one-clause match)查询.很多时候,我们需要用相同或不同的字符串查询1个或多个字 ...
Java之File类详解
常用操作: File f = new File("C:\\testdata\\filedir\\a\\b\\c"); f.mkdir(); //建立单级目录 f.mkdirs(); ...
C#动态对象(dynamic)示例(实现方法和属性的动态)
C#的动态对象的属性实现比较简单,如果要实现动态语言那种动态方法就比较困难,因为对于dynamic对象,扩展方法,匿名方法都是不能用直接的,这里还是利用对象和委托来模拟这种动态方法的实现,看起来有点J ...
git merge以及比较两个repo
一.需求 1)有两个相关的branch github下载的repo有master和work两个分支,由于远端已经更新,master分支落后于远端分支,work分支又有新的更新内容,需要将远端maste ...

[机器学习笔记]主成分分析PCA简介及其python实现

[机器学习笔记]主成分分析PCA简介及其python实现的更多相关文章

随机推荐

热门专题