降维技术---PCA

数据计算和结果展示一直是数据挖掘领域的难点，一般情况下，数据都拥有超过三维，维数越多，处理上就越吃力。所以，采用降维技术对数据进行简化一直是数据挖掘工作者感兴趣的方向。

对数据进行简化的好处：使得数据集更易于使用，降低算法的计算开销，去除噪声，使得结果易懂。

主成分分析法（PCA）是一种常用的降维技术。在PCA中，数据从原来的坐标系转换到了新的坐标系，新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。

为什么选择最大方差的方向和方差的正交方向？

如果想要画出一条直线，使得直线要尽可能多的覆盖坐标轴中的点，在下图中的三条直线中，B直线为最大方差代表的直线，说明覆盖数据信息最多，C直线为B直线的垂线，它是覆盖数据次大差异性的直线。

PCA的优点：降低数据的复杂性，识别最重要的多个特征。

PCA的原理：借助于正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量。这在代数上表现为将原随机向量的协方差矩阵变换为对角形阵。

PCA的实现：通过对协方差矩阵进行特征分解，以得出数据的主成分（即特征向量）和权值（即特征值）

将原始数据转换成前N个主成分的具体实现步骤：

1.去除平均值

2.计算协方差矩阵

3.计算协方差矩阵的特征值和特征向量

4.将特征值从大到小排序

5.保留最上面的N个特征向量

6.将数据转换到上述N个特征向量构建的新空间中

代码实现

def PCA(dataMatrix, topNFeature=999):

    meanVals = mean(dataMatrix, axis=0)

    meanRemovedMatrix = dataMatrix - meanVals      #1. remove mean

    covMat = cov(meanRemovedMatrix, rowvar=0)      #2. covariance matrix

    eigVals,eigVects = linalg.eig(mat(covMat))     #3. compute matrix eigenvalues and eigenvectors

    eigValInd = argsort(eigVals)                   #4. sort, sort goes smallest to largest

    eigValInd = eigValInd[:-(topNFeature+1):-1]    #5_1 cut off unwanted dimensions

    redEigVects = eigVects[:,eigValInd]            #5_2 reorganize eig vects largest to smallest

    lowDDataMat = meanRemovedMatrix * redEigVects  #6 transform data into new dimensions

    return lowDDataMat

降维技术---PCA的更多相关文章

PCA降维技术
PCA降维技术 PCA 降维 Fly Time: 2017-2-28 主成分分析(PCA) PCA Algorithm 实例主成分分析(PCA) 主成分分析(Principal Component ...
[机器学习之13]降维技术——主成分分析PCA
始终贯彻数据分析的一个大问题就是对数据和结果的展示,我们都知道在低维度下数据处理比较方便,因而数据进行简化成为了一个重要的技术.对数据进行简化的原因: 1.使得数据集更易用使用.2.降低很多算法的计算 ...
机器学习算法-PCA降维技术
机器学习算法-PCA降维一.引言在实际的数据分析问题中我们遇到的问题通常有较高维数的特征,在进行实际的数据分析的时候,我们并不会将所有的特征都用于算法的训练,而是挑选出我们认为可能对目标有影响的特 ...
数据降维技术（2）—奇异值分解（SVD）
上一篇文章讲了PCA的数据原理,明白了PCA主要的思想及使用PCA做数据降维的步骤,本文我们详细探讨下另一种数据降维技术—奇异值分解(SVD). 在介绍奇异值分解前,先谈谈这个比较奇怪的名字:奇异值分 ...
降维算法-PCA主成分分析
1.PCA算法介绍主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预处理.一般我们获取的原始数据维度都很高,比如1000个特征,在这1 ...
数据降维技术（1）—PCA的数据原理
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
ML: 降维算法-PCA
PCA (Principal Component Analysis) 主成份分析也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结 ...
机器学习实战基础（二十一）：sklearn中的降维算法PCA和SVD（二） PCA与SVD 之降维究竟是怎样实现
简述在降维过程中,我们会减少特征的数量,这意味着删除数据,数据量变少则表示模型可以获取的信息会变少,模型的表现可能会因此受影响.同时,在高维数据中,必然有一些特征是不带有有效的信息的(比如噪音),或 ...
机器学习基础与实践（三）----数据降维之PCA
写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了.本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法 ...

随机推荐

【BZOJ4034】[HAOI2015]树上操作树链剖分+线段树
[BZOJ4034][HAOI2015]树上操作 Description 有一棵点数为 N 的树,以点 1 为根,且树点有边权.然后有 M 个操作,分为三种: 操作 1 :把某个节点 x 的点权增加 ...
（转）yarn 集群部署，遇到的问题小结
link:http://blog.csdn.net/uniquechao/article/details/26449761 版本信息: hadoop 2.3.0 hive 0.11.0 1. ...
ACM 素数
素数时间限制:3000 ms | 内存限制:65535 KB 难度:1 描述走进世博园某信息通信馆,参观者将获得前所未有的尖端互动体验,一场充满创想和喜悦的信息通信互动体验秀将以全新形式呈 ...
codeforces round #234B(DIV2) C Inna and Huge Candy Matrix
#include <iostream> #include <vector> #include <algorithm> #include <utility> ...
C语言（1）
认知C语言计算机有很多的语言,现在要学习的C语言便是一种.下面便是一个基本的框架: #include <stdio.h> #include <stdlib.h> int ma ...
JS代码判断字符串中有多少汉字【转】
$("form").submit(function () { 2 var content = editor.getContentTxt(); 3 var sum = 0; 4 re ...
golang 简易聊天
client.go ------------------------------ package main import ( "net" "fmt" " ...
eclipse中中文字体过小
转自 http://www.cnblogs.com/HD/p/3654139.html
android api汇集
参考文章: 知乎-想写个 App 练手,有什么有趣的 API 接口推荐吗? 使用 Espresso 和 Dagger 测试网络服务 http://developer.simsimi.com/apps# ...
Hadoop.2.x_时间服务器搭建(CentOs6.6)
一.检查linux系统NTP是否被安装 [liuwl@hadoop09-linux-01 ~]$ [liuwl@hadoop09-linux-01 ~]$ rpm -qa | grep ntp ntp ...

降维技术---PCA

降维技术---PCA的更多相关文章

随机推荐

热门专题