PCA in MLLib

SVD分解: $A=U\Sigma V^T$，变换：$\hat{A}=A\cdot V=U\Sigma$

分解时先计算$A^TA=U\Sigma^2U^T$，再进行SVD分解

/**

   * Computes the top k principal components and a vector of proportions of

   * variance explained by each principal component.

   * Rows correspond to observations and columns correspond to variables.

   * The principal components are stored a local matrix of size n-by-k.

   * Each column corresponds for one principal component,

   * and the columns are in descending order of component variance.

   * The row data do not need to be "centered" first; it is not necessary for

   * the mean of each column to be 0.

   *

   * @param k number of top principal components.

   * @return a matrix of size n-by-k, whose columns are principal components, and

   * a vector of values which indicate how much variance each principal component

   * explains

   *

   * @note This cannot be computed on matrices with more than 65535 columns.

   */

  @Since("1.6.0")

  def computePrincipalComponentsAndExplainedVariance(k: Int): (Matrix, Vector) = {

    val n = numCols().toInt

    require(k > 0 && k <= n, s"k = $k out of range (0, n = $n]")

    // spark 分布式计算A^T A

    val Cov = computeCovariance().asBreeze.asInstanceOf[BDM[Double]]

    // Breeze计算svd分解

    val brzSvd.SVD(u: BDM[Double], s: BDV[Double], _) = brzSvd(Cov)

    // explained varience 归一化成Ratio

    val eigenSum = s.data.sum

    val explainedVariance = s.data.map(_ / eigenSum)

    // 返回U，∑

    if (k == n) {

      (Matrices.dense(n, k, u.data), Vectors.dense(explainedVariance))

    } else {

      (Matrices.dense(n, k, Arrays.copyOfRange(u.data, 0, n * k)),

        Vectors.dense(Arrays.copyOfRange(explainedVariance, 0, k)))

    }

  }

计算R：

分布式计算$R=A^TA$

其中$dim(A)=m\cdot n$,大数据场景下m会很大，但是n一般不会很大。所以计算结果$R$的维度也不会非常大，对$R$进行PCA分解的复杂度可控，单线程计算即可。

分布式计算自相关矩阵$R$的公式：

\[\begin{align*}
\text{calc } A^T A &:\\
&r_{ij} = \sum_{k=1}^m a_{ki}\cdot a_{kj}, \text{where }i,j\in 1,...,n\\
\text{So, }&\text{R} = \sum_{k=1}^m \vec{a}_k^T \vec{a}_k, \text{where }\vec{a}_k=[a_{k1},...,a_{kn}],\text{ $k^{th}$ row}
\end{align*}
\]

Spark代码：

/**

* Computes the Gramian matrix `A^T A`.

*

* @note This cannot be computed on matrices with more than 65535 columns.

*/

@Since("1.0.0")

def computeGramianMatrix(): Matrix = {

val n = numCols().toInt

checkNumColumns(n)

// Computes n*(n+1)/2, avoiding overflow in the multiplication.

// This succeeds when n <= 65535, which is checked above

val nt = if (n % 2 == 0) ((n / 2) * (n + 1)) else (n * ((n + 1) / 2))

// Compute the upper triangular part of the gram matrix.

val GU = rows.treeAggregate(new BDV[Double](nt))(

seqOp = (U, v) => {

BLAS.spr(1.0, v, U.data)

U

}, combOp = (U1, U2) => U1 += U2)

RowMatrix.triuToFull(n, GU.data)

}

SVD分解：

调用Breeze的SVD库，得到$U,\Sigma$

    val brzSvd.SVD(u: BDM[Double], s: BDV[Double], _) = brzSvd(Cov)

    // Explained variance 归一化

    val eigenSum = s.data.sum

    val explainedVariance = s.data.map(_ / eigenSum)

    if (k == n) {

      (Matrices.dense(n, k, u.data), Vectors.dense(explainedVariance))

    } else {

      (Matrices.dense(n, k, Arrays.copyOfRange(u.data, 0, n * k)),

        Vectors.dense(Arrays.copyOfRange(explainedVariance, 0, k)))

    }

Explained Variance Ratio

explained variance ratio of each principal component. It indicates

the proportion of the dataset’s variance that lies along the axis of each principal component.

PCA in MLLib的更多相关文章

Spark MLlib编程API入门系列之特征提取之主成分分析(PCA)
不多说,直接上干货! 主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法. 参考 http://blo ...
《Spark 官方文档》机器学习库（MLlib）指南
spark-2.0.2 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib由一些通用的学习算法和工具组成,包括分 ...
《Spark MLlib机器学习实践》内容简介、目录
http://product.dangdang.com/23829918.html Spark作为新兴的.应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相 ...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l“机器学 ...
MLlib 编程指导-spark-1.2.0
本文来自 http://spark.apache.org/docs/latest/mllib-guide.html 官方文档翻译个人翻译 MLlib包括的算法和工具主要有:分类,回归,聚类,协同过滤 ...
Spark MLlib数据类型
MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵. 1,本地向量(Local Ve ...
PCA 降维
http://f.dataguru.cn/spark-751832-1-1.html 我们可以利用PCA算法将向量的维数降低,从而实现特征转化.具体原理在<机器学习>课程中有详细的讲述.故 ...
Spark 2.0 PCA主成份分析
PCA在Spark2.0中用法比较简单,只需要设置: .setInputCol(“features”)//保证输入是特征值向量 .setOutputCol(“pcaFeatures”)//输出 .se ...
Spark 学习笔记：（四）MLlib基础
MLlib:Machine Learning Library.主要内容包括: 数据类型统计工具 summary statistics correlations stratified sampling ...

随机推荐

Tomcat的目录结构及部署应用程序
下载好的二进制的Tomcat,解压会看到7个目录,如下: bin 目录:Tomcat的脚本存放目录,如启动.关闭脚本等.其中 **.bat用于windows平台,**.sh用于Linux平台 conf ...
Netty 源码 Channel（一）概述
Netty 源码 Channel(一)概述 Netty 系列目录(https://www.cnblogs.com/binarylei/p/10117436.html) Channel 为 Netty ...
PDF下载网
http://www.java1234.com/a/javabook/javaweb/2018/1103/12297.html
RSS阅读
添加自己的RSS源,订阅信息更高效.一目十行,快速获取信息的效果.
iOS中堆和栈的区别
管理方式: 对于栈来讲,是由编译器自动管理,无需我们手工控制:对于堆来讲,释放工作有程序员控制,容易产生memory Leak. 申请大小: 栈:在Windows下,栈是向低地址扩展的数据结构,是一块 ...
[C#.Net]KeyDown(KeyUp)和KeyPress的区别
在keyDown事件里使用keyValue:在keyPress事件里使用keyChar. keyValue转换keyChar:(char)keyValue 验证只有数字和backSpace e.han ...
2019.01.08 codeforces 1009F. Dominant Indices（长链剖分）
传送门长链剖分模板题. 题意:给出一棵树,设fi,jf_{i,j}fi,j表示iii的子树中距离点iii距离为jjj的点的个数,现在对于每个点iii要求出使得fif_ifi取得最大值的那个jjj ...
2018.11.14 uoj#34. 多项式乘法（fft）
传送门 NOIpNOIpNOIp爆炸不能阻止我搞oioioi的决心信息技术课进行一点康复训练. fftfftfft板题. 代码: #include<bits/stdc++.h> usin ...
B+树和LSM比较（转）
出处:https://blog.csdn.net/u013928917/article/details/75912045 B+树和LSM比较在关系型数据库mysql中普遍使用B+树作为索引,在实际中 ...
react创建项目报错unexpected end of json while parsing near xxx
报这个错,执行下面的命令,然后重新创建项目就可以. npm cache clean --force