Spark机器学习中ml和mllib中矩阵、向量
1:Spark ML与Spark MLLIB区别?
Spark MLlib是面向RDD数据抽象的编程工具类库,现在已经逐渐不再被Spark团队支持,逐渐转向Spark ML库,Spark ML是面向DataFrame编程的。
2:Spark ML与Spark MLLIB中矩阵、向量定义区别?
这两个类库中的矩阵与向量对比可以发现几乎都是一样的,就是为了以后维护Spark ML方便。
3:Spark ML中稀疏向量与稠密向量区别?
稠密向量存储:底层存储使用完成的Double Array存储。
稀疏矩阵:底层存储非0的元素值以及该值的index以及向量的size。(也就是三维信息,存储效率高)
4:稠密向量示例:
import org.apache.spark.ml.linalg.{DenseVector => MLDenseVector}
val mlDv = new MLDenseVector(Array[Double](1, 1, 1, 1, 1))
println(mlDv.argmax)
//压缩矩阵,底层根据0的个数进行判断是稀疏存储还是稠密存储。稀疏存储就是存储非0的元素值以及索引以及向量的大小(也就是三维)
println(mlDv.compressed)
val copy = mlDv.copy //深拷贝
copy.foreachActive {
(x, y) =>
println("index = " + x + " , value = " + y)
}
//Number of active entries. An "active entry" is an element which is explicitly(明确地) stored,
// regardless of its value. Note that inactive entries have value 0.
println(copy.numActives)
println(copy.numNonzeros)
println(copy.size)
println(copy.values)
println(copy.toSparse)
5:稀疏矩阵
import org.apache.spark.ml.linalg.{SparseVector => MLSparseVector}
val mlDv = new MLDenseVector(Array[Double](1, 0, 0, 0, 0))
println(mlDv.toSparse) //(5,[0],[1.0])
//SparseVector构造器:向量维度,非零索引,非零索引对应的值
val mlSv = new MLSparseVector(5, Array[Int](0, 3), Array[Double](1, 2))
println(mlSv) //(5,[0,3],[1.0,2.0])
println(mlSv.toDense) //[1.0,0.0,0.0,2.0,0.0]
println(mlSv.indices.toBuffer)//返回稀疏向量的索引
对于mllib下的向量可以使用asML直接转成ML中的向量
//稀疏矩阵
import org.apache.spark.mllib.linalg.{DenseVector => MLLIBDenseVector}
val mlDv = new MLLIBDenseVector(Array[Double](1, 0, 0, 0, 0))
mlDv.asML //直接转成spark ml的向量
6:ML中矩阵
import org.apache.spark.ml.linalg.{DenseMatrix => MLDenseMatrix}
import org.apache.spark.ml.linalg.{SparseMatrix => MLSparseMatrix}
// 默认以列为主的稠密矩阵。
val notTranspose = new MLDenseMatrix(3, 2, Array[Double](1, 3, 5, 2, 4, 6))
// 第三个参数为是否允许转至,默认不允许,如果允许则按行存储
val mlDMtx = new MLDenseMatrix(3, 2, Array[Double](1, 2, 3, 4, 5, 6), true)
println(notTranspose)
println("-------------------------------------------------")
println(notTranspose.isTransposed)
println(notTranspose.transpose)
println(mlDMtx.isTransposed)
println("-------------------------------------------------")
println(mlDMtx)
println(mlDMtx.compressed)
println("-------------------------------------------------")
//转为按照列存储的稠密矩阵
println(mlDMtx.toDenseColMajor)
//转为按照行存储的稠密矩阵
println(notTranspose.toDenseRowMajor)
7稀疏矩阵:
println("--------------------MLSparseMatrix-----------------------------")
// numRows - number of rows
// numCols - number of columns
// colPtrs - the index corresponding to the start of a new column
// rowIndices - the row index of the entry. They must be in strictly increasing order for each column
// values - non-zero matrix entries in column major
// (0, 2, 1, 0, 1, 2)
// (0, 2, 3, 6)=> (2-0,3-2,6-3 )得到每一列非零元素个数
// (1.0, 2.0, 3.0, 4.0, 5.0, 6.0)
val mlSM = new MLSparseMatrix(3, 3, Array[Int](0, 2, 3, 6), Array[Int](0, 2, 1, 0, 1, 2), Array[Double](1.0, 2.0, 3.0, 4.0, 5.0, 6.0))
println(mlSM.toDense)

Spark机器学习中ml和mllib中矩阵、向量的更多相关文章
- Spark中ml和mllib的区别
转载自:https://vimsky.com/article/3403.html Spark中ml和mllib的主要区别和联系如下: ml和mllib都是Spark中的机器学习库,目前常用的机器学习功 ...
- Spark机器学习(8):LDA主题模型算法
1. LDA基础知识 LDA(Latent Dirichlet Allocation)是一种主题模型.LDA一个三层贝叶斯概率模型,包含词.主题和文档三层结构. LDA是一个生成模型,可以用来生成一篇 ...
- 转载:Databricks孟祥瑞:ALS 在 Spark MLlib 中的实现
Databricks孟祥瑞:ALS 在 Spark MLlib 中的实现 发表于2015-05-07 21:58| 10255次阅读| 来源<程序员>电子刊| 9 条评论| 作者孟祥瑞 大 ...
- Spark MLlib中KMeans聚类算法的解析和应用
聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为.兴趣等来构建推荐系统. 核心思想可以理解为,在给定的数据集中(数据集中的每个元素有可被观察的n个属性), ...
- Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API
Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distrib ...
- Spark MLlib中的OneHot哑变量实践
在机器学习中,线性回归和逻辑回归算是最基础入门的算法,很多书籍都把他们作为第一个入门算法进行介绍.除了本身的公式之外,逻辑回归和线性回归还有一些必须要了解的内容.一个很常用的知识点就是虚拟变量(也叫做 ...
- Apache Spark源码走读之23 -- Spark MLLib中拟牛顿法L-BFGS的源码实现
欢迎转载,转载请注明出处,徽沪一郎. 概要 本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读. 拟牛顿法 数学原理 代码实现 L-BFGS算法中使 ...
- 机器学习中的数学-强大的矩阵奇异值分解(SVD)及其应用
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
- MLlib 中的聚类和分类
聚类和分类是机器学习中两个常用的算法,聚类将数据分开为不同的集合,分类对新数据进行类别预测,下面将就两类算法进行介绍. 1. 聚类和分类(1)什么是聚类 聚类( Clustering)指将数据对象分组 ...
随机推荐
- webpack4打包报错:WARNING in configuration The 'mode' option has not been set, webpack will fallback to 'production' for this value. Set 'mode' option to 'development' or 'production' to enable defaults fo
运行命令webpack ./src/main.js ./dist/murenziwei.js后,目录上神马动静都没有,你以为在dist文件夹上会有murenziwei.js吗?毛都没有 警告和错误倒是 ...
- 正则表达式之javascript
1.正则表达式的定义 描述字符模式的对象,JavaScript的RepExp类表示正则表达式 var pattern = new RegExp("s\("); <=> ...
- ASP.NET Core Identity 实战(2)——注册、登录、Claim
上一篇文章(ASP.NET Core Identity Hands On(1)--Identity 初次体验)中,我们初识了Identity,并且详细分析了AspNetUsers用户存储表,这篇我们将 ...
- Spark知识点小结
函数在driver端定义.在executor端被调用执行
- VB.Net DataSet 填充資料庫內容
'導入命名空間Imports System.Data.OleDb '定義變量 Dim ds As DataSet = New DataSet() Dim i, cn As Integer Dim Sq ...
- Java 雇员管理小练习(理解面向对象编程)
在学习集合框架的时候,初学者很容易练习到学生管理系统.雇员管理体统等练习题.在学习集合框架之前,基本上Java基本语法都学完了,集合框架也从侧面的检验对前面学习的理解.下面用一个曾经做过的练习题,回顾 ...
- 2、买卖股票的最佳时机 II
2.买卖股票的最佳时机 II 给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格. 设计一个算法来计算你所能获取的最大利润.你可以尽可能地完成更多的交易(多次买卖一支股票). 注意:你不能 ...
- JavaScript数组学习总结
数组 数组 1.数组:数组是一组数据(数据类型不限,任意)的有序集合===>我们写代码,一般一个数组只放一种数据类型的数据 2.我们写代码,一般一个数组只放一种类型的数据 3.注意: 大多数 ...
- 新浪微博POI点签到数据及可视化的初步成果
目前仅对山东省区域进行了抓取,权限不够高,抓取的速度非常慢,所以导致效率比较低... 数据抓取采用调用微博开放平台API的方法,数据存储采用mysql,格点数据分辨率为30″,山东省的MBR范围内(包 ...
- 将Windows下的InfluxDB、Grafana做成Windows服务
从网上下载的Windows下的InfluxDB.Grafana,都是控制台程序,打开窗口后,很容易被别人给关掉,因此考虑做成Windows服务,nssm正是解决该问题的利器. 1.下载nssm htt ...