spark-mllib 密集向量和稀疏向量

丹江湖畔养蜂子赵大爹 2024-10-13 10:26:50 原文

spark-mllib 密集向量和稀疏向量

MLlib支持局部向量和矩阵存储在单台服务器，也支持存储于一个或者多个rdd的分布式矩阵。

局部向量和局部矩阵是用作公共接口的最简单的数据模型。基本的线性代数运算由Breeze提供。

在监督学习中使用的训练示例在MLlib中称为“标记点”。

因此，向量和矩阵，标记点是 spark-mllib基本的数据模型，也是学习sparl-mllib的基础。

局部向量

一个局部向量具有存储在单个机器上的integer整数类型的基于0的索引和double类型的多个值。MLlib支持两种类

类型的局部向量：密集（dense）向量和稀疏（sparse）向量。

一个密集向量基于一个double数组来表示其实体值，但是一个稀疏的向量基于两个并列的数组：索引数组和值数组。

例如，一个向量（1.0,0.0,3.0）可以用密集格式表示为[1.0,0.0,3.0] ；

稀疏格式表示为（3，[0,2]，[1.0,3.0]），其中3是向量的大小，向量的索引下标为0,1,2，索引为0的向量元素值为1.0，索引为0的向量元素值为3.0，而索引为1的向量元素值是默认值0.0。

由此可以看出，稀疏的向量初始化的值不包括默认值和不存在的值，可以节省一部分空间，数据集可以变小；而密集向量是把向量中每一个元素的值都初始化了，即是某个索引下标的值不存在，也用默认值代替，这样的好处是清晰明了，但是数据集会比较大。

局部向量的基本实现类是org.apache.spark.mllib.linalg.Vector,spark提供了2中实现：DenseVector and SparseVector。spark官方推荐使用org.apache.spark.mllib.linalg.Vectors类的工厂方法来创建局部向量。

参考 Vector.scala和Vectors.scala的docs文档了解详细的API介绍。

下面我使用spark 的mllib api 就定义一个密集向量：

import org.apache.spark.mllib.linalg.{Vector, Vectors}

// Create a dense vector (1.0, 0.0, 3.0).

//创建密集向量

val dv: Vector = Vectors.dense(1.0, 0.0, 3.0)

// Create a sparse vector (1.0, 0.0, 3.0) by specifying its indices and values corresponding to nonzero entries.

//根据索引数组和值数据组创建稀疏向量

val sv1: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))

// Create a sparse vector (1.0, 0.0, 3.0) by specifying its nonzero entries.

//直接根据实体创建稀疏向量

val sv2: Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0)))

注意： scala默认引用的scala.collection.immutable.Vector，所以要显示的引用org.apache.spark.mllib.linalg.Vector，确保使用是MLlib的 Vector

spark-mllib 密集向量和稀疏向量的更多相关文章

Spark Mllib里如何建立密集向量和稀疏向量（图文详解）
不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
Mllib数据类型（密集向量和稀疏向量）
1.局部向量 Mllib支持2种局部向量类型:密集向量(dense)和稀疏向量(sparse). 密集向量由double类型的数组支持,而稀疏向量则由两个平行数组支持. example: 向量(5.2 ...
dense向量和稀疏向量sparse
import org.apache.spark.mllib.linalg.Vectors object Test { def main(args: Array[String]) { val vd = ...
Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）
不多说,直接上干货! Local vector : 本地向量集由两类构成:稀疏型数据集(spares)和密集型数据集(dense) (1).密集型数据集例如一个向量数据(9,5,2,7),可以设 ...
Spark的mlib中的稠密向量和稀疏向量
spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVecto ...
spark 稠密向量和稀疏向量
Spark mlib的本地向量有两种: DenseVctor :稠密向量其创建方式 Vector.dense(数据) SparseVector :稀疏向量其创建方式有两种: 方法一 ...
Spark Mllib里如何建立向量标签（图文详解）
不多说,直接上干货! 注意: val pos = LabeledPoint(1, vd) val neg = LabeledPoint(2, vs) 除了这两种建立向量标签.还可以从数据库中获取固定格 ...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l“机器学 ...
Spark MLlib架构解析（含分类算法、回归算法、聚类算法和协同过滤）
Spark MLlib架构解析 MLlib的底层基础解析 MLlib的算法库分析分类算法回归算法聚类算法协同过滤 MLlib的实用程序分析从架构图可以看出MLlib主要包含三个部分: 底层基 ...

随机推荐

CreateToolhelp32Snapshot 以及 EnumProcesses
RT,请教如何获得Windows任务管理器中所显示的进程列表. CreateToolhelp32Snapshot 以及 EnumProcesses 这些方法我都试过了,但是这两种方法得到的结果和任务管 ...
Python编程笔记（第一篇）Python基础语法
一.python介绍 1.编程语言排行榜 TIOBE榜 TIOBE编程语言排行榜是编程语言流行趋势的一个指标,每月更新,这份排行榜排名基于互联网有经验的程序员.课程和第三方厂商的数量. 2.pytho ...
left join用法
表1: Person +-------------+---------+ | 列名 | 类型 | +-------------+---------+ | PersonId | int | | Firs ...
[html]Sublime Text添加插件
今天想在Sublime Text(简称ST)内编写HTML后直接使用浏览器看效果,想添加View in Browser插件,然后遇到奇怪的问题添加插件直接报"找不到有用的插件" 一 ...
C# 使用 HttpPost 请求调用 WebService
之前调用 WebService 都是直接添加服务引用,然后调用 WebService 方法的,最近发现还可以使用 Http 请求调用 WebService.这里还想说一句,还是 web api 的调用 ...
hibernate项目
http://blog.csdn.net/wzygis/article/details/22985751
836. Rectangle Overlap
class Solution { public: bool isRectangleOverlap(vector<int>& rec1, vector<int>& ...
2018.11.01 loj#2319. 「NOIP2017」列队（线段树）
传送门唉突然回忆起去年去noipnoipnoip提高组试水然后省二滚粗的悲惨经历... 往事不堪回首. 所以说考场上真的有debuffdebuffdebuff啊!!!虽然当时我也不会权值线段树这道 ...
window.frames
// 点击事件 function zTreeOnClick(event, treeId, treeNode) { id = treeNode.id; window.frames["treeF ...
表单提交textarea内容，第一次获取不到值，第二次才能获取到的解决方法：
因为KindEditor的可视化操作在新创建的iframe上执行,代码模式下的textarea框也是新创建的,所以最后提交前需要执行 sync() 将HTML数据设置到原来的textarea. Kin ...