Spark机器学习中ml和mllib中矩阵、向量

1：Spark ML与Spark MLLIB区别？

Spark MLlib是面向RDD数据抽象的编程工具类库，现在已经逐渐不再被Spark团队支持，逐渐转向Spark ML库，Spark ML是面向DataFrame编程的。

2：Spark ML与Spark MLLIB中矩阵、向量定义区别？

这两个类库中的矩阵与向量对比可以发现几乎都是一样的，就是为了以后维护Spark ML方便。

3：Spark ML中稀疏向量与稠密向量区别？

稠密向量存储：底层存储使用完成的Double Array存储。

稀疏矩阵：底层存储非0的元素值以及该值的index以及向量的size。（也就是三维信息，存储效率高）

4：稠密向量示例:

 import org.apache.spark.ml.linalg.{DenseVector => MLDenseVector}

  val mlDv = new MLDenseVector(Array[Double](1, 1, 1, 1, 1))

  println(mlDv.argmax)

  //压缩矩阵，底层根据0的个数进行判断是稀疏存储还是稠密存储。稀疏存储就是存储非0的元素值以及索引以及向量的大小（也就是三维）

  println(mlDv.compressed)

  val copy = mlDv.copy //深拷贝

  copy.foreachActive {

    (x, y) =>

      println("index = " + x + " ,  value = " + y)

  }

  //Number of active entries. An "active entry" is an element which is explicitly(明确地) stored,

  // regardless of its value. Note that inactive entries have value 0.

  println(copy.numActives)

  println(copy.numNonzeros)

  println(copy.size)

  println(copy.values)

  println(copy.toSparse)

5：稀疏矩阵

 import org.apache.spark.ml.linalg.{SparseVector => MLSparseVector}

  val mlDv = new MLDenseVector(Array[Double](1, 0, 0, 0, 0))

  println(mlDv.toSparse)  //(5,[0],[1.0])

  //SparseVector构造器：向量维度，非零索引，非零索引对应的值

  val mlSv = new MLSparseVector(5, Array[Int](0, 3), Array[Double](1, 2))

  println(mlSv) //(5,[0,3],[1.0,2.0])

  println(mlSv.toDense) //[1.0,0.0,0.0,2.0,0.0]

  println(mlSv.indices.toBuffer)//返回稀疏向量的索引

对于mllib下的向量可以使用asML直接转成ML中的向量

  //稀疏矩阵

  import org.apache.spark.mllib.linalg.{DenseVector => MLLIBDenseVector}

  val mlDv = new MLLIBDenseVector(Array[Double](1, 0, 0, 0, 0))

  mlDv.asML //直接转成spark ml的向量

6：ML中矩阵

import org.apache.spark.ml.linalg.{DenseMatrix => MLDenseMatrix}

  import org.apache.spark.ml.linalg.{SparseMatrix => MLSparseMatrix}

  // 默认以列为主的稠密矩阵。

  val notTranspose = new MLDenseMatrix(3, 2, Array[Double](1, 3, 5, 2, 4, 6))

  // 第三个参数为是否允许转至，默认不允许，如果允许则按行存储

  val mlDMtx = new MLDenseMatrix(3, 2, Array[Double](1, 2, 3, 4, 5, 6), true)

  println(notTranspose)

  println("-------------------------------------------------")

  println(notTranspose.isTransposed)

  println(notTranspose.transpose)

  println(mlDMtx.isTransposed)

  println("-------------------------------------------------")

  println(mlDMtx)

  println(mlDMtx.compressed)

  println("-------------------------------------------------")

  //转为按照列存储的稠密矩阵

  println(mlDMtx.toDenseColMajor)

  //转为按照行存储的稠密矩阵

  println(notTranspose.toDenseRowMajor)

7稀疏矩阵：

  println("--------------------MLSparseMatrix-----------------------------")

  //  numRows - number of rows

  //  numCols - number of columns

  //  colPtrs - the index corresponding to the start of a new column

  //  rowIndices - the row index of the entry. They must be in strictly increasing order for each column

  //  values - non-zero matrix entries in column major

  //  (0, 2, 1, 0, 1, 2)

  //  (0, 2, 3, 6)=> (2-0,3-2,6-3 )得到每一列非零元素个数

  //  (1.0, 2.0, 3.0, 4.0, 5.0, 6.0)

  val mlSM = new MLSparseMatrix(3, 3, Array[Int](0, 2, 3, 6), Array[Int](0, 2, 1, 0, 1, 2), Array[Double](1.0, 2.0, 3.0, 4.0, 5.0, 6.0))

  println(mlSM.toDense)

Spark机器学习中ml和mllib中矩阵、向量的更多相关文章

Spark中ml和mllib的区别
转载自:https://vimsky.com/article/3403.html Spark中ml和mllib的主要区别和联系如下: ml和mllib都是Spark中的机器学习库,目前常用的机器学习功 ...
Spark机器学习(8)：LDA主题模型算法
1. LDA基础知识 LDA(Latent Dirichlet Allocation)是一种主题模型.LDA一个三层贝叶斯概率模型,包含词.主题和文档三层结构. LDA是一个生成模型,可以用来生成一篇 ...
转载：Databricks孟祥瑞：ALS 在 Spark MLlib 中的实现
Databricks孟祥瑞:ALS 在 Spark MLlib 中的实现发表于2015-05-07 21:58| 10255次阅读| 来源<程序员>电子刊| 9 条评论| 作者孟祥瑞大 ...
Spark MLlib中KMeans聚类算法的解析和应用
聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为.兴趣等来构建推荐系统. 核心思想可以理解为,在给定的数据集中(数据集中的每个元素有可被观察的n个属性), ...
Spark机器学习MLlib系列１（for python）－－数据类型，向量，分布式矩阵，API
Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distrib ...
Spark MLlib中的OneHot哑变量实践
在机器学习中,线性回归和逻辑回归算是最基础入门的算法,很多书籍都把他们作为第一个入门算法进行介绍.除了本身的公式之外,逻辑回归和线性回归还有一些必须要了解的内容.一个很常用的知识点就是虚拟变量(也叫做 ...
Apache Spark源码走读之23 -- Spark MLLib中拟牛顿法L-BFGS的源码实现
欢迎转载,转载请注明出处,徽沪一郎. 概要本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读. 拟牛顿法数学原理代码实现 L-BFGS算法中使 ...
机器学习中的数学-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
MLlib 中的聚类和分类
聚类和分类是机器学习中两个常用的算法,聚类将数据分开为不同的集合,分类对新数据进行类别预测,下面将就两类算法进行介绍. 1. 聚类和分类(1)什么是聚类聚类( Clustering)指将数据对象分组 ...

随机推荐

webpack4打包报错：WARNING in configuration The 'mode' option has not been set, webpack will fallback to 'production' for this value. Set 'mode' option to 'development' or 'production' to enable defaults fo
运行命令webpack ./src/main.js ./dist/murenziwei.js后,目录上神马动静都没有,你以为在dist文件夹上会有murenziwei.js吗?毛都没有警告和错误倒是 ...
正则表达式之javascript
1.正则表达式的定义描述字符模式的对象,JavaScript的RepExp类表示正则表达式 var pattern = new RegExp("s\("); <=> ...
ASP.NET Core Identity 实战（2）——注册、登录、Claim
上一篇文章(ASP.NET Core Identity Hands On(1)--Identity 初次体验)中,我们初识了Identity,并且详细分析了AspNetUsers用户存储表,这篇我们将 ...
Spark知识点小结
函数在driver端定义.在executor端被调用执行
VB.Net DataSet 填充資料庫內容
'導入命名空間Imports System.Data.OleDb '定義變量 Dim ds As DataSet = New DataSet() Dim i, cn As Integer Dim Sq ...
Java 雇员管理小练习（理解面向对象编程）
在学习集合框架的时候,初学者很容易练习到学生管理系统.雇员管理体统等练习题.在学习集合框架之前,基本上Java基本语法都学完了,集合框架也从侧面的检验对前面学习的理解.下面用一个曾经做过的练习题,回顾 ...
2、买卖股票的最佳时机 II
2.买卖股票的最佳时机 II 给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格. 设计一个算法来计算你所能获取的最大利润.你可以尽可能地完成更多的交易(多次买卖一支股票). 注意:你不能 ...
JavaScript数组学习总结
数组数组 1.数组:数组是一组数据(数据类型不限,任意)的有序集合===>我们写代码,一般一个数组只放一种数据类型的数据 2.我们写代码,一般一个数组只放一种类型的数据 3.注意: 大多数 ...
新浪微博POI点签到数据及可视化的初步成果
目前仅对山东省区域进行了抓取,权限不够高,抓取的速度非常慢,所以导致效率比较低... 数据抓取采用调用微博开放平台API的方法,数据存储采用mysql,格点数据分辨率为30″,山东省的MBR范围内(包 ...
将Windows下的InfluxDB、Grafana做成Windows服务
从网上下载的Windows下的InfluxDB.Grafana,都是控制台程序,打开窗口后,很容易被别人给关掉,因此考虑做成Windows服务,nssm正是解决该问题的利器. 1.下载nssm htt ...

Spark机器学习中ml和mllib中矩阵、向量

Spark机器学习中ml和mllib中矩阵、向量的更多相关文章

随机推荐

热门专题