PCA实现

代码实现分成好多种层级，有的代码只使用标准库实现，有的代码基于其它库实现，有的代码直接调用库中现有的实现。

在本文中，按照不同的层级分别实现PCA

对于分类问题基本任务可以描述如下

x11 x12 x13 x14 y1

x21 x22 x23 x24 y2

x31 x32 x33 x34 y3

......

PCA用于提取样本的主要特征，它只跟属性有关，而跟类别数据无关。也就是说，PCA只跟X有关而跟Y无关。

import numpy as np

from sklearn.decomposition import PCA

# 10个样本，每个样本7个属性，现在要取其中的3个属性

train_x = np.random.rand(10, 7)

train_y = np.random.randint(0, 3, (100, 1))

#使用sklearn

p = PCA(n_components=3)

p.fit(train_x, train_y)

train_data = p.transform(train_x)

# 使用numpy中的协方差计算、特征值求解来实现

mu = np.mean(train_x, axis=0)  # 均值向量

# 协方差矩阵，cov默认是列向量，这里需要T表示将行向量转置称列向量

# 使用参数rowvar=False相当于矩阵转置

A = np.cov(np.asmatrix(train_x - mu).T)

root, vec = np.linalg.eig(A)

ind = np.argsort(root)

transform_matrix = np.asmatrix(vec[:, ind[-3:]])

train_data2 = np.asmatrix(train_x - mu) * transform_matrix

# 自己实现协方差计算，只使用numpy中的特征值求解来实现

mu = np.mean(train_x, axis=0)

A = np.dot((train_x - mu).T, (train_x - mu)) / (len(train_x) - 1)

root, vec = np.linalg.eig(A)

# 返回的特征根是无序的，需要进行排序

ind = np.argsort(root)

# vec[:ind[-3:]]或者vec[:ind[-1:-4:-1]]都是可以的

transform_matrix = np.asmatrix(vec[:, ind[-3:]])

train_data3 = np.asmatrix(train_x - mu) * transform_matrix

print(np.sum(train_data - train_data2), np.sum(train_data - train_data3))

PCA实现的更多相关文章

用scikit-learn学习主成分分析(PCA)
在主成分分析(PCA)原理总结中,我们对主成分分析(以下简称PCA)的原理做了总结,下面我们就总结下如何使用scikit-learn工具来进行PCA降维. 1. scikit-learn PCA类介绍 ...
主成分分析（PCA）原理总结
主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一.在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用.一般我们提到降维最容易想到的算法就 ...
机器学习基础与实践（三）----数据降维之PCA
写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了.本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法 ...
数据降维技术（1）—PCA的数据原理
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
深度学习笔记——PCA原理与数学推倒详解
PCA目的:这里举个例子,如果假设我有m个点,{x(1),...,x(m)},那么我要将它们存在我的内存中,或者要对着m个点进行一次机器学习,但是这m个点的维度太大了,如果要进行机器学习的话参数太多, ...
PCA、ZCA白化
白化是一种重要的预处理过程,其目的就是降低输入数据的冗余性,使得经过白化处理的输入数据具有如下性质:(i)特征之间相关性较低:(ii)所有特征具有相同的方差. 白化又分为PCA白化和ZCA白化,在数据 ...
PCA 协方差矩阵特征向量的计算
人脸识别中矩阵的维数n>>样本个数m. 计算矩阵A的主成分,根据PCA的原理,就是计算A的协方差矩阵A'A的特征值和特征向量,但是A'A有可能比较大,所以根据A'A的大小,可以计算AA'或 ...
【统计学习】主成分分析PCA(Princple Component Analysis)从原理到实现
[引言]--PCA降维的作用面对海量的.多维(可能有成百上千维)的数据,我们应该如何高效去除某些维度间相关的信息,保留对我们"有用"的信息,这是个问题. PCA给出了我们一种解决 ...
主成分分析 (PCA) 与其高维度下python实现(简单人脸识别)
Introduction 主成分分析(Principal Components Analysis)是一种对特征进行降维的方法.由于观测指标间存在相关性,将导致信息的重叠与低效,我们倾向于用少量的.尽可 ...
PCA与LDA的区别与联系
由于涉及内容较多,这里转载别人的博客: http://blog.csdn.net/sunmenggmail/article/details/8071502 其实主要在于:PCA与LDA的变换矩阵不同, ...

随机推荐

JS高级 - 面向对象4（json方式面向对象）
把方法包在一个Json里 var p1 = { name: "唐三", sex: "男", dreamdu: { URL: "www.dreamdu. ...
《JavaScript 高级程序设计》第三章：基本概念
目录语法标识符严格模式关键字保留字变量数据类型运算符表达式与语句语法 "语法"指的是一门语言的书写风格,JavaScript 的语法风格很类似于 C 以及 Ja ...
Spring事务传播行为
什么是事务传播行为 public void methodA(){ methodB(); //doSomething } @Transaction(Propagation=XXX) public voi ...
Hibernate api 之常见的类（配置类，会话工厂类，会话类）
1:Configuration :配置管理类对象 1.1:config.configure(): 加载主配置文件的方法(hibernate.cfg.xml) ,默认加载src/hibernate.cf ...
vtiger7菜单管理
添加了新模块,但是菜单上却没显示. 和菜单相关的表有4张我们要把新建的message放到support模块下面 1.把默认的父级目录tools改成support 2. app2tab 0表示不显示, ...
Linux下安装JDK7和TomCat7
[BEGIN] 2016/9/9 14:20:49[root@rzhd jdk]# ll总用量 149916-rw-r--r-- 1 root root 153512879 9月 9 14:20 jd ...
AndrodStudio报错： Cannot launch AVD in emulator.
Cannot launch AVD in emulator.Output:Hax is enabledHax ram_size 0x60000000HAX is working and emulato ...
短网址服务(TinyURL)生成算法
前不久做了一个优惠劵的分享功能,其中一个功能就是生成一个优惠劵分享短链接.生成的短链接要求每个链接都是唯一的,并且长度尽可能短.在网上查了一下相关的思路,发现了一个不错的算法.这个算法的思 ...
long long or int
long long or int 很多时候long long爆空间,int有时又不够 . 在算乘法的时候,要保证乘出来的中间项也不爆long long
class.forName的作用？
调用该访问返回一个以字符串指定类名的类的对象. 返回字节码,返回字节码的方式有几种: ①:这份字节码曾经被加载过已经存在java虚拟机中了直接返回. ②:java虚拟机中还没有这份字节码,用类加载器 ...

PCA实现

PCA实现的更多相关文章

随机推荐

热门专题