MLlib--SVD算法

转载请标明出处http://www.cnblogs.com/haozhengfei/p/4db529fa9f4c042673c6dc8218251f6c.html

SVD算法

1.1什么是SVD？

降维的两种方式：PCA（主成分分析） SVD

SVD算法：矩阵奇异值分解算法，一种降维算法

1.2矩阵的深入理解

在一个线性空

间中，只要我们选定一组基，那么对于任何一个线性变换

，都能够用一个确定的矩阵来加以描述，

就如同一个对象可能有多个引用名字不同，所以一组相似矩阵都是一个线性变换在不同的组基的描述

特征值与特征向量

Ax=λx 其中A为矩阵,λ为特征值，x为特征向量，矩阵是线性空间里的变换的描述。

矩阵A与向量相乘，本质上对向量x进行一次线性转换（旋转或拉伸），而该转换的效果为常数c乘以向量x，当我们求特征值与特征向量的时候，就是为了求矩阵A能使哪些向量（特征向量）只发生拉伸，而拉伸的程度，自然就是特征值λ了。

特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多重要，而特征向量表示这个特征是什么，不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵（n*n）。

通过特征值分解得到的前N个特征向量，那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向，就可以近似这个矩阵（变换）。也就是说：提取这个矩阵最重要的特征。

1.3SVD提取矩阵的特征，解决以上的局限

• 假设A是一个m∗n阶矩阵，如此则存在一个分解使得如下：

其中U是m×m阶矩阵；Σ是m×n阶非负实数对角矩阵；而VT，即V的共轭转置，是n×n阶矩阵。这样的分解就称作M的奇异值分解。Σ对角线上的元素Σi,i即为M的奇异值。而且一般来说，我们会将Σ上的值按从大到小的顺序排列。

问题：将一个矩阵分解为三个矩阵相乘，但是这三个矩阵的负责程度一点不必原来的A矩阵小，甚至更复杂，为什么要将原来的矩阵分解为三个矩阵呢，这和降纬有什么关系呢？

当我们把矩阵Σ里的奇异值按从大到小的顺

序排列以后，很容易发现，奇异值σ减小的速度特别快。在很

多时候，前10%甚至前1%的奇异值的和就占了全部奇异值和

的99%以上。换句话说，大部分奇异值都很小，基本没什么用

。

于是，SVD也可以这么写：

这样左边的大矩阵，就能用右边的三个小矩阵表示了，生产中

这三个小矩阵的规模加起来也远小于原本的矩阵A，从而达到

降纬的目的。

1.4SVD_code

train

SVD_new

代码示例

 import org.apache.log4j.{Level, Logger}

 import org.apache.spark.{SparkConf, SparkContext}

 import org.apache.spark.mllib.linalg

 import org.apache.spark.mllib.linalg.{Matrix, SingularValueDecomposition, Vectors}

 import org.apache.spark.mllib.linalg.distributed.RowMatrix

 import org.apache.spark.rdd.RDD

 /**

   * Created by hzf

   */

 object SVD_new {

     //  E:\IDEA_Projects\mlib\data\SVD\train\test.txt E:\IDEA_Projects\mlib\data\SVD\model 3 true 1.0E-9d local

     def main(args: Array[String]) {

         Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)

         if (args.length < 6) {

             System.err.println("Usage: SVD <inputPath> <modelPath> <num> <compute> <ignore> <master> [<AppName>]")

             System.exit(1)

         }

         val appName = if (args.length > 6) args(6) else "SVD"

         val conf = new SparkConf().setAppName(appName).setMaster(args(5))

         val sc = new SparkContext(conf)

         val data = sc.textFile(args(0))

         val train: RDD[linalg.Vector] = data.map(sample => {

             Vectors.dense(sample.split(",").map(_.toDouble))

         })

         val mat: RowMatrix = new RowMatrix(train)

         var compute = true

         compute = args(3) match {

             case "true" => true

             case "false" => false

         }

         //第一个参数3意味着取top 3个奇异值，第二个参数true意味着计算矩阵U，第三个参数意味小于1.0E-9d的奇异值将被抛弃

         val svd: SingularValueDecomposition[RowMatrix, Matrix] = mat.computeSVD(args(2).toInt, compute);

         val u = svd.U;

         //矩阵U

         val s = svd.s

         //奇异值

         val v = svd.V //矩阵V

         println(s);

         println("#" * 50);

         println(v);

     }

 }

设置运行参数

E:\IDEA_Projects\mlib\data\SVD\train\test.txt E:\IDEA_Projects\mlib\data\SVD\model 3true1.0E-9d local

MLlib--SVD算法的更多相关文章

推荐系统 SVD和SVD++算法
推荐系统 SVD和SVD++算法 SVD: SVD++: [Reference] 1.SVD在推荐系统中的应用详解以及算法推导 2.推荐系统——SVD/SVD++ 3.SVD++ 4.SVD++协 ...
Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS
Spark MLlib回归算法------线性回归.逻辑回归.SVM和ALS 1.线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多 ...
spark mllib k-means算法实现
package iie.udps.example.spark.mllib; import java.util.regex.Pattern; import org.apache.spark.SparkC ...
Spark MLlib回归算法LinearRegression
算法说明线性回归是利用称为线性回归方程的函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析方法,只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归,在实际情况中大多数都是多 ...
Spark MLlib基本算法【相关性分析、卡方检验、总结器】
一.相关性分析 1.简介计算两个系列数据之间的相关性是统计中的常见操作.在spark.ml中提供了很多算法用来计算两两的相关性.目前支持的相关性算法是Pearson和Spearman.Correla ...
SVD/SVD++实现推荐算法
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不仅可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域. ...
机器学习算法总结(九)——降维(SVD, PCA)
降维是机器学习中很重要的一种思想.在机器学习中经常会碰到一些高维的数据集,而在高维数据情形下会出现数据样本稀疏,距离计算等困难,这类问题是所有机器学习方法共同面临的严重问题,称之为“ 维度灾难 ”.另 ...
一步步教你轻松学奇异值分解SVD降维算法
一步步教你轻松学奇异值分解SVD降维算法 (白宁超 2018年10月24日09:04:56 ) 摘要:奇异值分解(singular value decomposition)是线性代数中一种重要的矩阵分 ...
从item-base到svd再到rbm，多种Collaborative Filtering(协同过滤算法)从原理到实现
http://blog.csdn.net/dark_scope/article/details/17228643 〇.说明本文的所有代码均可在 DML 找到,欢迎点星星. 一.引入推荐系统(主要是 ...
SVD在推荐系统中的应用详解以及算法推导
SVD在推荐系统中的应用详解以及算法推导出处http://blog.csdn.net/zhongkejingwang/article/details/43083603 前面文章SVD原理及推 ...

随机推荐

超级基础的python文件读取
读取文件的两种方式: 1.使用os的open函数: import sys,os r=open("data1.txt","r+") fr=r.readlines( ...
PhoneGap开发环境搭建
项目中要用PhoneGap开发,了解了下基本规则,记录一下,以备后查.(只针对Android平台) 一.安装在安装PhoneGap开发环境之前,需要先安装以下框架: 1.Java SDK 2.Ecl ...
【ASP.NET Core】运行原理(4):授权
本系列将分析ASP.NET Core运行原理 [ASP.NET Core]运行原理(1):创建WebHost [ASP.NET Core]运行原理(2):启动WebHost [ASP.NET Core ...
Android 执行 adb shell 命令
Android 执行Adb shell 命令大多需要root权限,Android自带的Runtime. getRuntime().exec()容易出错,在网上找到了一个执行adb shell命令的类 ...
Tablayout ViewPage 使用示例
上一篇文章介绍了使用 FragmenttabHost 来使用 tab 导航:到 Android 5.0 的时候,又推出了 TabLayout.因此,有必要对tablayout 进行了解下. 首先我们来 ...
mybatis源码学习--spring+mybatis注解方式为什么mybatis的dao接口不需要实现类
相信大家在刚开始学习mybatis注解方式,或者spring+mybatis注解方式的时候,一定会有一个疑问,为什么mybatis的dao接口只需要一个接口,不需要实现类,就可以正常使用,笔者最开始的 ...
第十五章：Python の Web开发基础 (二) JavaScript与DOM
本課主題 JavaScript 介绍 DOM 介绍 JavaScript 介绍 JavaScript 是一门编程语言,它可以让网页动起来的,JavaScript 的变量有两种,一个是局部变量:一个是全 ...
[Spark内核] 第29课：Master HA彻底解密
本课主题 Master HA 解析 Master HA 解析源码分享 [引言部份:你希望读者看完这篇博客后有那些启发.学到什么样的知识点] 更新中...... Master HA 解析生产环境下一般 ...
用ildasm和ilasm对.net下的exe程序进行破解初探
1.对ildasm和ilasm的解释和用法在msdn上有. ildasm:MSIL 反汇编程序是 MSIL 汇编程序 (Ilasm.exe) 的伙伴工具. Ildasm.exe 采用包含 Micros ...
Java 与C++的各种优势与弱点--学习更新中
时隔两年没有怎么碰Java了,最近开始学习回顾下.在这里记录下学习的点滴,持续更新...希望对c++\java等不同语言有较为清晰的认识,至少不要学完以后,哪一个都不会了... Java 优势: 1. ...