【统计学习】主成分分析PCA(Princple Component Analysis)从原理到实现


#encoding: UTF-8
'''
Created on 2016��12��14��
@author: YYH
'''
import numpy as np
from array import array
# 自己实现参考
# http://blog.csdn.net/u012162613/article/details/42177327
# 传入的数据格式: array
# 每一行代表一个样本
# 每一列代表一个唯度的信息
#数据中心化,使得各个维度的信息均为0
def meanshift(dataArr):
mean = np.mean(dataArr,axis=0)#对每一列求均值
newData = dataArr-mean
return newData,mean
def zeroData(dataArr,mean):
newData = dataArr-mean
return newData
class PCA:
def __init__(self, n_components=1,percentage=0.99):
self.dstDim = n_components
self.reservePercentage = percentage
def __del__(self):
pass
def fit(self,dataArr):
zeroMeanData,meanVal = meanshift(dataArr)
self.meanVal = meanVal#保存数据中心
# 求协方差矩阵,rowvar = 0:一行代表一个样本
cov = np.cov(zeroMeanData,rowvar=0)
#求特征值和特征向量,特征向量是按列放的,即一列代表一个特征向量
eigVals,eigVector =np.linalg.eig(cov)
eigValsIndice = np.argsort(eigVals)#从小到大排列
n_eigValsIndice = eigValsIndice[-1:-(self.dstDim+1):-1] #最大的n个特征的下标
n_eigVect = eigVector[:,n_eigValsIndice]#最大的n个特征值对应的特征向量
n_eigVect = np.matrix(n_eigVect)
self.n_eigVect = n_eigVect #保存特征向量
def fit_transform(self,dataArr):
zeroMeanData,meanVal = meanshift(dataArr)
self.meanVal = meanVal#保存数据中心
# 求协方差矩阵,rowvar = 0:一行代表一个样本
cov = np.cov(zeroMeanData,rowvar=0)
#求特征值和特征向量,特征向量是按列放的,即一列代表一个特征向量
eigVals,eigVector =np.linalg.eig(cov)
eigValsIndice = np.argsort(eigVals)#从小到大排列
n_eigValsIndice = eigValsIndice[-1:-(self.dstDim+1):-1] #最大的n个特征的下标
n_eigVect = eigVector[:,n_eigValsIndice]#最大的n个特征值对应的特征向量
zeroMeanData = np.matrix(zeroMeanData)
n_eigVect = np.matrix(n_eigVect)
self.n_eigVect = n_eigVect #保存特征向量
lowDData = zeroMeanData*n_eigVect #低维特征空间的数据
# reConData = (lowDData*n_eigVect.T)+meanVal #重构数据
return lowDData
def transform(self,dataArr):
zeroMeanData = zeroData(dataArr,self.meanVal)
zeroMeanData = np.matrix(zeroMeanData)
lowDData = zeroMeanData*self.n_eigVect #低维特征空间的数据
# reConData = (lowDData*n_eigVect.T)+meanVal #重构数据
return lowDData
【代码验证】
在做手写数字识别时,我分别使用了sklearn的PCA,和自己整理的PCA,达到的准确度都到了96%左右。
在PCA降维后的数据来看,可能在特征向量上方向不同,导致部分列跟sklearn的符号相反
时间上,可能自己整理实现的PC A现在耗时短点,毕竟目前是比较简单的PC A


【统计学习】主成分分析PCA(Princple Component Analysis)从原理到实现的更多相关文章
- R: 主成分分析 ~ PCA(Principal Component Analysis)
本文摘自:http://www.cnblogs.com/longzhongren/p/4300593.html 以表感谢. 综述: 主成分分析 因子分析 典型相关分析,三种方法的共同点主要是用来对数据 ...
- 用scikit-learn学习主成分分析(PCA)
在主成分分析(PCA)原理总结中,我们对主成分分析(以下简称PCA)的原理做了总结,下面我们就总结下如何使用scikit-learn工具来进行PCA降维. 1. scikit-learn PCA类介绍 ...
- 解释一下核主成分分析(Kernel Principal Component Analysis, KPCA)的公式推导过程(转载)
KPCA,中文名称”核主成分分析“,是对PCA算法的非线性扩展,言外之意,PCA是线性的,其对于非线性数据往往显得无能为力,例如,不同人之间的人脸图像,肯定存在非线性关系,自己做的基于ORL数据集的实 ...
- 核主成分分析(Kernel Principal Component Analysis, KPCA)的公式推导过程
KPCA,中文名称”核主成分分析“,是对PCA算法的非线性扩展,言外之意,PCA是线性的,其对于非线性数据往往显得无能为力,例如,不同人之间的人脸图像,肯定存在非线性关系,自己做的基于ORL数据集的实 ...
- PCA(Principal Component Analysis)笔记
PCA是机器学习中recognition中的传统方法,今天下午遇到了,梳理记一下 提出背景: 二维空间里,2个相近的样本,有更大概率具有相同的属性,但是在高维空间里,由于样本在高维空间里,呈现越来越稀 ...
- 主成分分析(principal components analysis, PCA)——无监督学习
降维的两种方式: (1)特征选择(feature selection),通过变量选择来缩减维数. (2)特征提取(feature extraction),通过线性或非线性变换(投影)来生成缩减集(复合 ...
- 《principal component analysis based cataract grading and classification》学习笔记
Abstract A cataract is lens opacification caused by protein denaturation which leads to a decrease i ...
- 机器学习 —— 基础整理(四)特征提取之线性方法:主成分分析PCA、独立成分分析ICA、线性判别分析LDA
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...
- 【机器学习】--主成分分析PCA降维从初识到应用
一.前述 主成分分析(Principal Component Analysis,PCA), 是一种统计方法.通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分. ...
随机推荐
- 12.Linux软件安装 (一步一步学习大数据系列之 Linux)
1.如何上传安装包到服务器 有三种方式: 1.1使用图形化工具,如: filezilla 如何使用FileZilla上传和下载文件 1.2使用 sftp 工具: 在 windows下使用CRT 软件 ...
- Linux 下安装JRuby
安装ruby cd git clone https://github.com/rbenv/rbenv.git ~/.rbenv echo 'export PATH="$HOME/.rbenv ...
- Android Studio导入第三方类库的方法
Android Studio导入第三方类库的方法 本人也刚刚开始尝试做android app的开发,听说android studio是Google支持的android 应用开发工具,所以想应该肯定比E ...
- 深度学习笔记——PCA原理与数学推倒详解
PCA目的:这里举个例子,如果假设我有m个点,{x(1),...,x(m)},那么我要将它们存在我的内存中,或者要对着m个点进行一次机器学习,但是这m个点的维度太大了,如果要进行机器学习的话参数太多, ...
- Linux下的压缩和解压缩命令——jar
原文链接:http://blog.chinaunix.net/uid-692788-id-2681136.htmlJAR包是Java中所特有一种压缩文档,其实大家就可以把它理解为.zip包.当然也是有 ...
- C#夯实基础之多线程一:初识多线程
一. 烧水沏茶问题 在小学四年级有一个烧水沏茶问题,可以作为我们今天讨论话题的引子: 客人来了,要烧一壶茶,但是烧水需要5分钟,洗水壶需要1分钟,洗茶杯需要2分钟,接水需要1分钟,找茶叶需 ...
- iOS 编译时处理器架构选择
先看看主流的ios设备的架构 armv6 iPhone iPhone2 iPhone3G 第一代和第二代iPod Touch armv7 iPhone4 iPhone4S armv7s iPhone5 ...
- kill命令
*杀死进程最安全的方法是单纯使用kill命令,不加修饰符,不带标志. 首先使用ps -ef命令确定要杀死进程的PID,然后输入以下命令: # kill -pid 注释:标准的kill命令通 ...
- Windows10系统如何更改程序的默认安装目录?
Windows10系统如何更改程序的默认安装目录? 在Windows10系统的使用中,软件程序的默认安装目录是:C:\Program Files\...或者C:\Program Files(x86)\ ...
- 关于imageOrientation
用相机拍出来的照片都含有EXIF信息,UIImage的imageOrientation属性指的就是EXIF中的orientation信息.如果我们忽略orientation信心,而直接对照片进行想速处 ...