Spark MLib 数据类型

1. MLlib

Apache Spark's scalable machine learning library, with APIs in Java, Scala and Python.

2. 数据类型

本地向量，标注点，本地矩阵，分布式矩阵

3. 本地向量 Local Vector

稠密向量 dense 一个double数组，例如 (1.0, 0.0, 0.0, 0.0, 3.0)
稀疏向量 sparse 两个并行的数组(indices和values)，例如 (5, [0, 4], [1.0, 3.0])，其中5表示向量元素的个数，[0，4] 是indices，[1.0,3.0]是values

基类是Vector, org.apache.spark.mllib.linalg.vector引入

import org.apache.spark.mllib.linalg.{Vector, Vectors}

val dv: Vector = Vectors.dense(1.0, 0.0, 3.0)                        // 创建一个dense vector (1.0, 0.0, 3.0).

val sv1: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))   // 创建一个sparse vector (1.0, 0.0, 3.0).

val sv2: Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0)))        // 等同于sv2

4. 标注点（Labeled Point）

用于有监督学习的训练样本称为标注点。

一个标注点就是一个本地向量（或稠密或稀疏），这个向量和一个标签或者响应相关联。
我们用一个double存储标签，这样我们就可以在回归和分类中使用标注点。
对于二分类，一个标签可能是0或者是1；对于多分类，一个标签可能代表从0开始的类别索引。

样本类是LabeledPoint, org.apache.spark.mllib.regression.LabeledPoint 引入。

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.regression.LabeledPoint

val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))  // a positive label and a dense feature vector.

val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)))  // a negative label and a sparse feature vector.

5. 本地矩阵（Local Matrix）

稠密矩阵按列顺序存储，用一个数组，加上(列，行) 表示数组大小。
稀疏矩阵非零条目值保存为压缩稀疏列 CSC（Compressed Sparse Column）格式，这种格式也是以列顺序存储

例： 9.0 0.0

（ 0.0 8.0）

0.0 6.0

稠密矩阵可以表示为，[3, 2, (9.0 , 0.0, 0.0, 0.0, 8.0, 6.0) ] 其中3为

稀疏矩阵？？不懂

基类是Matrix, 可以导入 org.apache.spark.mllib.linalg.Matrices

import org.apache.spark.mllib.linalg.{Matrix,Matrices}

val dm: Matrix=Matrices.dense(3,2,Array(9.0,0.0,0.0,0.0,8.0,6.0)              // dense Matrix

val sm: Matrix=Matrices.sparse(3,2,Array(0,1,3),Array(0,2,1),Array(9,8,6)) //sparse Matrix

6. 分布式矩阵 Distributed Matrix

一个分布式矩阵拥有long类型的行和列索引，以及double类型的值，分布式的存储在一个或多个RDD中。

已经实现了3种分布式矩阵：

1) RowMatrix

是一个面向行的分布式矩阵，它没有有意义的行索引。行保存为一个RDD,每一行都是一个本地向量。
可以通过 org.apache.spark.mllib.linalg.distributed.RowMatrix 引入。
通过RDD[Vector]实例创建

2) IndexedRowMatrix

和RowMatrix类似，它拥有行索引，行索引可以用于识别行和进行join操作
org.apache.spark.mllib.linalg.distributed.{IndexedRow, IndexedRowMatrix, RowMatrix}
可以通过RDD[IndexedRow]实例创建
IndexedRowMatrix可以通过去掉它的行索引，转换成RowMatrix

3) CoordinateMatrix

一个分布式矩阵，它使用COO格式存储（COO是啥）
条目保存为一个RDD。每一个条目是一个(i: Long, j: Long, value: Double)格式的元组，i 行索引，j 列索引，value 条目值。
应该仅仅在矩阵维度很大并且矩阵非常稀疏的情况下使用
org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}
通过RDD[MatrixEntry]实例创建

4) BlockMatrix

每个块保存为一个RDD
与CoordinateMatrix类似，是一个((Int, Int), Matrix)类型的元组，其中(Int, Int)代表块的索引，Matrix代表子矩阵。
BlockMatrix支持诸如add和multiply等方法。BlockMatrix还有一个帮助方法validate，用来判断一个BlockMatrix是否正确的创建。
调用toBlockMatrix从一个IndexedRowMatrix或者CoordinateMatrix创建一个BlockMatrix。默认大小为 1024 * 1024
org.apache.spark.mllib.linalg.distributed.BlockMatrix

Spark MLib 数据类型的更多相关文章

Spark MLib：梯度下降算法实现
声明:本文参考< 大数据:Spark mlib(三) GradientDescent梯度下降算法之Spark实现> 1. 什么是梯度下降? 梯度下降法(英语:Gradient descen ...
Spark mlib的本地向量
Spark mlib的本地向量有两种: DenseVctor :稠密向量其创建方式 Vector.dense(数据) SparseVector :稀疏向量其创建方式有两种: 方法一:Vector. ...
Spark MLib完整基础入门教程
Spark MLib 在Spark下进行机器学习,必然无法离开其提供的MLlib框架,所以接下来我们将以本框架为基础进行实际的讲解.首先我们需要了解其中最基本的结构类型,即转换器.估计器.评估器和流水 ...
Spark MLib 基本统计汇总 2
4. 假设检验基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的.这个结果是否有机会发生. 显著性检验原假设与备择假设常把一个要检验的假设记作 H0,称为原假设(或零假设) (null ...
Spark MLib 基本统计汇总 1
1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计,它通过调用 Statistics 的 colStats方法实现. colStats返回一个 ...
Spark PySpark数据类型的转换原理—Writable Converter
Spark目前支持三种开发语言:Scala.Java.Python,目前我们大量使用Python来开发Spark App(Spark 1.2开始支持使用Python开发Spark Streaming ...
Spark MLlib数据类型
MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵. 1,本地向量(Local Ve ...
spark 机器学习基础数据类型
spark的机器学习库,包含常见的学习算法和工具如分类.回归.聚类.协同过滤.降维等使用算法时都需要指定相应的数据集,下面为大家介绍常用的spark ml 数据类型.1.本地向量(Local Vect ...
Spark的mlib中的稠密向量和稀疏向量
spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVecto ...

随机推荐

oracle存储过程中的if...elseif...else用法
if ... then ... elsif ... then ... else ... end if; or if ... then ... else ... end ...
js删除数据的几种方法
js 删除数组几种方法 var arr=['a','b','c']; 若要删除其中的'b',有两种方法: 1.delete方法:delete arr[1] 这种方式数组长度不变,此时arr[1]变为u ...
CentOS 6.4 下安装vsftpd
概述: vsftpd是Linux下比较著名的FTP服务器,搭建FTP服务器当然首选这个. 本文介绍了在CentOS 6.4下安装vsftpd.配置虚拟用户登录FTP的过程. 正文: 一:安装vsftp ...
subtable
HP “云图”GPU虚拟化工作站解决方案
HP PCS ”云图”GPU虚拟化工作站解决方案 ——将图形计算从桌面移到数据中心惠普云图形GPU虚拟化桌面系统是以用户为中心的私有云服务.除了保留了传统桌面虚拟化方案以集中设备为中心统一管理等优点 ...
用C++和shell获取本机CPU、网卡IO、内存、磁盘等的基本信息
用C++和shell获取本机CPU.网卡.内存.磁盘等的基本信息: 由于对C++相关的函数没多少了解,但是觉得用shell反而相对简单一些: 一.shell脚本,用来辅助C++获取主机的资源使用信息 ...
java:POI导出excel
POI是一个开源项目,专用于java平台上操作MS OFFICE,企业应用开发中可用它方便导出Excel. 下面是使用示例: 1.maven中先添加依赖项 <dependency> < ...
ios蓝牙开发（三）ios连接外设的代码实现：手机app去读写蓝牙设备。
手机app去读写蓝牙设备....... 代码下载: 原文博客主提供Github代码连接,地址是:https://github.com/coolnameismy/demo ios连接外设的代码实现流程: ...
swift－sharesdk集成微信、Facebook第三方登录
好久没有写博客了.最近忙得没有时间更新博客,很忙很忙. 今天就把自己做过的第三方集成和大家分享一下,请大家多多指教. 第一步: 一.获取AppKey(去官方平台注册) 二.下载SDK 三.快速集成第 ...
sql基本命令
--------------------------------------------------------SQL基本命令开始----------------------------------- ...