PCA in MLLib

SVD分解: $A=U\Sigma V^T$，变换：$\hat{A}=A\cdot V=U\Sigma$

分解时先计算$A^TA=U\Sigma^2U^T$，再进行SVD分解

/**

   * Computes the top k principal components and a vector of proportions of

   * variance explained by each principal component.

   * Rows correspond to observations and columns correspond to variables.

   * The principal components are stored a local matrix of size n-by-k.

   * Each column corresponds for one principal component,

   * and the columns are in descending order of component variance.

   * The row data do not need to be "centered" first; it is not necessary for

   * the mean of each column to be 0.

   *

   * @param k number of top principal components.

   * @return a matrix of size n-by-k, whose columns are principal components, and

   * a vector of values which indicate how much variance each principal component

   * explains

   *

   * @note This cannot be computed on matrices with more than 65535 columns.

   */

  @Since("1.6.0")

  def computePrincipalComponentsAndExplainedVariance(k: Int): (Matrix, Vector) = {

    val n = numCols().toInt

    require(k > 0 && k <= n, s"k = $k out of range (0, n = $n]")

    // spark 分布式计算A^T A

    val Cov = computeCovariance().asBreeze.asInstanceOf[BDM[Double]]

    // Breeze计算svd分解

    val brzSvd.SVD(u: BDM[Double], s: BDV[Double], _) = brzSvd(Cov)

    // explained varience 归一化成Ratio

    val eigenSum = s.data.sum

    val explainedVariance = s.data.map(_ / eigenSum)

    // 返回U，∑

    if (k == n) {

      (Matrices.dense(n, k, u.data), Vectors.dense(explainedVariance))

    } else {

      (Matrices.dense(n, k, Arrays.copyOfRange(u.data, 0, n * k)),

        Vectors.dense(Arrays.copyOfRange(explainedVariance, 0, k)))

    }

  }

计算R：

分布式计算$R=A^TA$

其中$dim(A)=m\cdot n$,大数据场景下m会很大，但是n一般不会很大。所以计算结果$R$的维度也不会非常大，对$R$进行PCA分解的复杂度可控，单线程计算即可。

分布式计算自相关矩阵$R$的公式：

\[\begin{align*}
\text{calc } A^T A &:\\
&r_{ij} = \sum_{k=1}^m a_{ki}\cdot a_{kj}, \text{where }i,j\in 1,...,n\\
\text{So, }&\text{R} = \sum_{k=1}^m \vec{a}_k^T \vec{a}_k, \text{where }\vec{a}_k=[a_{k1},...,a_{kn}],\text{ $k^{th}$ row}
\end{align*}
\]

Spark代码：

/**

* Computes the Gramian matrix `A^T A`.

*

* @note This cannot be computed on matrices with more than 65535 columns.

*/

@Since("1.0.0")

def computeGramianMatrix(): Matrix = {

val n = numCols().toInt

checkNumColumns(n)

// Computes n*(n+1)/2, avoiding overflow in the multiplication.

// This succeeds when n <= 65535, which is checked above

val nt = if (n % 2 == 0) ((n / 2) * (n + 1)) else (n * ((n + 1) / 2))

// Compute the upper triangular part of the gram matrix.

val GU = rows.treeAggregate(new BDV[Double](nt))(

seqOp = (U, v) => {

BLAS.spr(1.0, v, U.data)

U

}, combOp = (U1, U2) => U1 += U2)

RowMatrix.triuToFull(n, GU.data)

}

SVD分解：

调用Breeze的SVD库，得到$U,\Sigma$

    val brzSvd.SVD(u: BDM[Double], s: BDV[Double], _) = brzSvd(Cov)

    // Explained variance 归一化

    val eigenSum = s.data.sum

    val explainedVariance = s.data.map(_ / eigenSum)

    if (k == n) {

      (Matrices.dense(n, k, u.data), Vectors.dense(explainedVariance))

    } else {

      (Matrices.dense(n, k, Arrays.copyOfRange(u.data, 0, n * k)),

        Vectors.dense(Arrays.copyOfRange(explainedVariance, 0, k)))

    }

Explained Variance Ratio

explained variance ratio of each principal component. It indicates

the proportion of the dataset’s variance that lies along the axis of each principal component.

PCA in MLLib的更多相关文章

Spark MLlib编程API入门系列之特征提取之主成分分析(PCA)
不多说,直接上干货! 主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法. 参考 http://blo ...
《Spark 官方文档》机器学习库（MLlib）指南
spark-2.0.2 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib由一些通用的学习算法和工具组成,包括分 ...
《Spark MLlib机器学习实践》内容简介、目录
http://product.dangdang.com/23829918.html Spark作为新兴的.应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相 ...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l“机器学 ...
MLlib 编程指导-spark-1.2.0
本文来自 http://spark.apache.org/docs/latest/mllib-guide.html 官方文档翻译个人翻译 MLlib包括的算法和工具主要有:分类,回归,聚类,协同过滤 ...
Spark MLlib数据类型
MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵. 1,本地向量(Local Ve ...
PCA 降维
http://f.dataguru.cn/spark-751832-1-1.html 我们可以利用PCA算法将向量的维数降低,从而实现特征转化.具体原理在<机器学习>课程中有详细的讲述.故 ...
Spark 2.0 PCA主成份分析
PCA在Spark2.0中用法比较简单,只需要设置: .setInputCol(“features”)//保证输入是特征值向量 .setOutputCol(“pcaFeatures”)//输出 .se ...
Spark 学习笔记：（四）MLlib基础
MLlib:Machine Learning Library.主要内容包括: 数据类型统计工具 summary statistics correlations stratified sampling ...

随机推荐

格式化输出之每行N个元素 list拆分
for i in range(0,len(XSECT),5): out_BLDdat.write(' '.join( map('{:10.4f}'.format,XSECT[i:i+5]) ) + ' ...
Can I win LT464
In the "100 game," two players take turns adding, to a running total, any integer from 1.. ...
CXF wsdl2java (转载)
2011-03-28 14:27 9735人阅读评论(2) 收藏举报 servicewebserviceinterfacejavastringserver CXF wsdl2Java 一. 简介 ...
团队-Python 爬取豆瓣电影top250-成员简介及分工
姓名:周鑫班级:软件6班团队名称:咣咣踹电脑擅长:Python,java 分工:编写数据库
go基础知识之变量,类型,常量,函数
3 变量变量是什么变量指定了某存储单元(Memory Location)的名称,该存储单元会存储特定类型的值.在 Go 中,有多种语法用于声明变量. 声明单个变量 var name type 是声 ...
用sql 生成2016年全年的日期
select to_char(日期,'yyyy-mm-dd') from( select to_date('2016-01-01','yyyy-mm-dd') + level 日期 from dual ...
2019.01.23 hdu3377 Plan（轮廓线dp）
传送门题意简述:给一个n*m的带权矩阵,求从左上角走到右下角的最大分数,每个格子只能经过最多一次,n,m≤9n,m\le9n,m≤9. 思路: 考虑轮廓线dpdpdp,但这道题并没有出现回路的限制因 ...
2019.01.02 bzoj5300: [Cqoi2018]九连环（fft优化高精+快速幂）
传送门题意不好描述(自己看样例解释) 首先可以推出一个递推式:fn=fn−1+2fn−2+1f_n=f_{n-1}+2f_{n-2}+1fn=fn−1+2fn−2+1 然后可以构造两个等式: ...
asp.net core跨平台开发从入门到实战文摘
第1章 .NET Core 第2章 dotnet命令第3章 VS Code安装及介绍第4章 VS2015开发.NET Core 第5章 ASP.NET Core 第6章 EF Core 第7章 A ...
s4-8 虚拟局域网
虚拟局域网(VLAN) VLAN:一组逻辑上的设备或用户. VLAN的实现  基于端口  基于MAC地址  基于三层协议 IEEE 802.1Q 标准  1998年颁布  一种幁标记方法:V ...