Spark MLib 数据类型
1. MLlib
Apache Spark's scalable machine learning library, with APIs in Java, Scala and Python.
2. 数据类型
本地向量,标注点,本地矩阵,分布式矩阵
3. 本地向量 Local Vector
- 稠密向量 dense 一个double数组,例如 (1.0, 0.0, 0.0, 0.0, 3.0)
- 稀疏向量 sparse 两个并行的数组(indices和values),例如 (5, [0, 4], [1.0, 3.0]),其中5表示向量元素的个数,[0,4] 是indices,[1.0,3.0]是values
基类是Vector, org.apache.spark.mllib.linalg.vector引入
import org.apache.spark.mllib.linalg.{Vector, Vectors}
val dv: Vector = Vectors.dense(1.0, 0.0, 3.0) // 创建一个dense vector (1.0, 0.0, 3.0).
val sv1: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)) // 创建一个sparse vector (1.0, 0.0, 3.0).
val sv2: Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0))) // 等同于sv2
4. 标注点(Labeled Point)
用于有监督学习的训练样本称为标注点。
- 一个标注点就是一个本地向量(或稠密或稀疏),这个向量和一个标签或者响应相关联。
- 我们用一个
double存储标签,这样我们就可以在回归和分类中使用标注点。 - 对于二分类,一个标签可能是0或者是1;对于多分类,一个标签可能代表从0开始的类别索引。
样本类是LabeledPoint, org.apache.spark.mllib.regression.LabeledPoint 引入。
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0)) // a positive label and a dense feature vector.
val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))) // a negative label and a sparse feature vector.
5. 本地矩阵(Local Matrix)
- 稠密矩阵 按列顺序存储,用一个数组,加上(列,行) 表示数组大小。
- 稀疏矩阵 非零条目值保存为压缩稀疏列 CSC(
Compressed Sparse Column)格式,这种格式也是以列顺序存储
例: 9.0 0.0
( 0.0 8.0)
0.0 6.0
稠密矩阵可以表示为,[3, 2, (9.0 , 0.0, 0.0, 0.0, 8.0, 6.0) ] 其中3为
稀疏矩阵 ??不懂
基类是Matrix, 可以导入 org.apache.spark.mllib.linalg.Matrices
import org.apache.spark.mllib.linalg.{Matrix,Matrices}
val dm: Matrix=Matrices.dense(3,2,Array(9.0,0.0,0.0,0.0,8.0,6.0) // dense Matrix
val sm: Matrix=Matrices.sparse(3,2,Array(0,1,3),Array(0,2,1),Array(9,8,6)) //sparse Matrix
6. 分布式矩阵 Distributed Matrix
一个分布式矩阵拥有long类型的行和列索引,以及double类型的值,分布式的存储在一个或多个RDD中。
已经实现了3种分布式矩阵:
1) RowMatrix
- 是一个面向行的分布式矩阵,它没有有意义的行索引。行保存为一个
RDD,每一行都是一个本地向量。 - 可以通过 org.apache.spark.mllib.linalg.distributed.RowMatrix 引入。
- 通过
RDD[Vector]实例创建
2) IndexedRowMatrix
- 和RowMatrix类似,它拥有行索引,行索引可以用于识别行和进行
join操作 - org.apache.spark.mllib.linalg.distributed.{IndexedRow, IndexedRowMatrix, RowMatrix}
- 可以通过
RDD[IndexedRow]实例创建 IndexedRowMatrix可以通过去掉它的行索引,转换成RowMatrix
3) CoordinateMatrix
- 一个分布式矩阵,它使用
COO格式存储 (COO是啥) - 条目保存为一个
RDD。每一个条目是一个(i: Long, j: Long, value: Double)格式的元组,i行索引,j列索引,value条目值。 - 应该仅仅在矩阵维度很大并且矩阵非常稀疏的情况下使用
- org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}
- 通过
RDD[MatrixEntry]实例创建
4) BlockMatrix
- 每个块保存为一个RDD
与CoordinateMatrix类似,是一个((Int, Int), Matrix)类型的元组,其中(Int, Int)代表块的索引,Matrix代表子矩阵。BlockMatrix支持诸如add和multiply等方法。BlockMatrix还有一个帮助方法validate,用来判断一个BlockMatrix是否正确的创建。- 调用
toBlockMatrix从一个IndexedRowMatrix或者CoordinateMatrix创建一个BlockMatrix。 默认大小为 1024 * 1024 org.apache.spark.mllib.linalg.distributed.BlockMatrix
Spark MLib 数据类型的更多相关文章
- Spark MLib:梯度下降算法实现
声明:本文参考< 大数据:Spark mlib(三) GradientDescent梯度下降算法之Spark实现> 1. 什么是梯度下降? 梯度下降法(英语:Gradient descen ...
- Spark mlib的本地向量
Spark mlib的本地向量有两种: DenseVctor :稠密向量 其创建方式 Vector.dense(数据) SparseVector :稀疏向量 其创建方式有两种: 方法一:Vector. ...
- Spark MLib完整基础入门教程
Spark MLib 在Spark下进行机器学习,必然无法离开其提供的MLlib框架,所以接下来我们将以本框架为基础进行实际的讲解.首先我们需要了解其中最基本的结构类型,即转换器.估计器.评估器和流水 ...
- Spark MLib 基本统计汇总 2
4. 假设检验 基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的.这个结果是否有机会发生. 显著性检验 原假设与备择假设 常把一个要检验的假设记作 H0,称为原假设(或零假设) (null ...
- Spark MLib 基本统计汇总 1
1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现. colStats返回一个 ...
- Spark PySpark数据类型的转换原理—Writable Converter
Spark目前支持三种开发语言:Scala.Java.Python,目前我们大量使用Python来开发Spark App(Spark 1.2开始支持使用Python开发Spark Streaming ...
- Spark MLlib数据类型
MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵. 1,本地向量(Local Ve ...
- spark 机器学习基础 数据类型
spark的机器学习库,包含常见的学习算法和工具如分类.回归.聚类.协同过滤.降维等使用算法时都需要指定相应的数据集,下面为大家介绍常用的spark ml 数据类型.1.本地向量(Local Vect ...
- Spark的mlib中的稠密向量和稀疏向量
spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVecto ...
随机推荐
- curl命令
定位后端接口是否ok,经常使用到curl -b/cookie <name=string/file> cookie字符串或文件读取位置 curl http://localhost --co ...
- 利用scp 远程上传下载文件/文件夹和ssh远程执行命令
利用scp传输文件 1.从服务器下载文件scp username@servername:/path/filename /tmp/local_destination例如scp codinglog@192 ...
- FastReport 隐藏matrix的列如何实现
fastReport在处理 行列都是浮动的时候非常好用. 但是也有一些不太直观的东西.比如说要设置生成结果的某行某列. 修改字体颜色背景色,隐藏,设置行高,设置列宽等等. 可以在 matrix的aft ...
- 执行sudo时报错:effective uid is not 0
http://jingyan.baidu.com/article/c45ad29cd83d4b051753e232.html 今天将 / 授权给了一个普通用户 导致一些问题. 启事: 操作前一 ...
- Oracle Coherence应用部署到Jboss EAP 6.x 时 NoClassDefFoundError: sun/rmi/server/MarshalOutputStream 的解决办法
今天将一个web应用从weblogic 10.3迁移到jboss EAP 6.3上,该应用使用oracle coherence做为缓存,部署上去后,启动时一直报如下错误: at java.ut ...
- mybatis3.2.8 与 hibernate4.3.6 混用
mybatis.hibernate这二个框架各有特色,对于复杂的查询,利用mybatis直接手写sql控制起来更灵活,而一般的insert/update,hibernate比较方便.同一个项目中,这二 ...
- springmvc请求参数异常处理
接着上一篇<springmvc 通过异常增强返回给客户端统一格式>讲通过spring ControllerAdvice对各种异常进行拦截处理,统一格式返回给客户端. 接下来我们更精细的讲, ...
- 数据库MySQL与Oracle的一些去O注意项
一.oracle递归查询语句start with ...connect by prior ① 给你一张表,表里面有主键id,以及该项的父节点parent_id,查询出该表中所有的父子关系节点树? Or ...
- ASP.MVC EASY UI 入门之 —— Tree & ComboTree
1.常规的EASY UI的tree和comboTree代码基本是官方的DEMO都有的,虽然很简单,但是还是要实践的做一次,才能更清晰的了解和使用它!先上效果图 因为用的是code first,所以数据 ...
- WPF 3D模型 3D场景
1.首先得说明的是这并不是真正的3D,模型被导出为一系列的单个图片,例如一个3D户型图,以某个视角旋转360°,渲染出一系列连续的单个图片文件. 2.在Image.MouseMove事件中添加相应代码 ...