dense向量和稀疏向量sparse

import org.apache.spark.mllib.linalg.Vectors

object Test {

  def main(args: Array[String]) {

    val vd = Vectors.dense(2, 5, 8)

    println(vd(1))

    println(vd)

    //向量个数，序号，value

    val vs = Vectors.sparse(4, Array(0, 1, 2, 3), Array(9, 3, 5, 7))

    println(vs(0)) //序号访问

    println(vs)

    val vs2 = Vectors.sparse(4, Array(0, 2, 1, 3), Array(9, 3, 5, 7))

    println(vs2(2))

    println(vs2)

  }

}

5.0

[2.0,5.0,8.0]

9.0

(4,[0,1,2,3],[9.0,3.0,5.0,7.0])

3.0

(4,[0,2,1,3],[9.0,3.0,5.0,7.0])

本地向量（Local Vector）存储在单台机器上，索引采用0开始的整型表示，值采用Double类型的值表示。Spark MLlib中支持两种类型的矩阵，

分别是密度向量（Dense Vector）和稀疏向量（Spasre Vector），密度向量会存储所有的值包括零值，而稀疏向量存储的是索引位置及值，

不存储零值，在数据量比较大时，稀疏向量才能体现它的优势和价值。下面给出其应用示例：

spark 稠密向量和稀疏向量

Spark mlib的本地向量有两种：

DenseVctor   ：稠密向量   其创建方式   Vector.dense(数据)

SparseVector ：稀疏向量   其创建方式有两种：

　　方法一：Vector.sparse(向量长度，索引数组，与索引数组所对应的数值数组)

　　方法二：Vector.sparse(向量长度，（索引，数值），（索引，数值），（索引，数值），...(索引，数值))

示例：

比如向量（1,0,3,4）的创建有三种方法：

稠密向量：直接Vectors.dense(1,0,3,4)

稀疏向量：

方法一：Vector.sparse(4,(0,2,3),(1,3,4))  (0,2,3)

　　　　表示该向量的第0个，第2个，第3个位置，(1,3,4) 表示（0,2,3）位置对应的数值分别为1,3,4

方法二：Vector.sparse(4,(0,1),(2,3),(3,4))

　　　　（0,1）就是（索引，数值）的形式。位置0的数值为1, 位置2的数值为3,位置3的数值为4

dense向量和稀疏向量sparse的更多相关文章

spark-mllib 密集向量和稀疏向量
spark-mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 . 局部向量和局部矩阵是用作公共接口的最简单的数据模型. 基本的线 ...
Spark的mlib中的稠密向量和稀疏向量
spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVecto ...
spark 稠密向量和稀疏向量
Spark mlib的本地向量有两种: DenseVctor :稠密向量其创建方式 Vector.dense(数据) SparseVector :稀疏向量其创建方式有两种: 方法一 ...
Mllib数据类型（密集向量和稀疏向量）
1.局部向量 Mllib支持2种局部向量类型:密集向量(dense)和稀疏向量(sparse). 密集向量由double类型的数组支持,而稀疏向量则由两个平行数组支持. example: 向量(5.2 ...
Spark Mllib里如何建立密集向量和稀疏向量（图文详解）
不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
scala 稀疏向量
http://mocom.xmu.edu.cn/article/show/58481eb2e083c990247075a5/0/1 1. /创建一个标签为1.0(分类中可视为正样本)的稠密向量标注点 ...
TF-IDF计算相似度为什么要对稀疏向量建立索引？
TF-IDF的向量表示的稀疏问题之前在看tf-idf代码时候思考了一个问题,不知道对于初学的大部分同学有没有这样一个疑惑,用tf-idf值构成的向量,维度可能跟词表的大小有关,那么对于一句话来说,这 ...
稀疏表示 Sparse Representation
稀疏表示_百度百科 https://baike.baidu.com/item/%E7%A8%80%E7%96%8F%E8%A1%A8%E7%A4%BA/16530498 信号稀疏表示是过去近20年来信 ...
第17章内存映射文件（3）_稀疏文件(Sparse File)
17.8 稀疏调拨的内存映射文件 17.8.1 稀疏文件简介 (1)稀疏文件(Sparse File):指的是文件中出现大量的0数据,这些数据对我们用处不大,但是却一样的占用空间.NTFS文件系统对此 ...

随机推荐

ASP.NET Core Web API 路由的有效使用
ROUTING 在 .NET Core Web API 项目中,我们应该使用属性路由代替传统路由,这是因为属性路由可以帮助我们匹配路由参数名称与 Action 内的实际参数方法.另一个原因是路由参数的 ...
初识hadoop --- (分布式文件系统 + 分块计算)
[转载] + 整理 2016-11-18 使用范围: Hadoop典型应用有:搜索.日志处理.推荐系统.数据分析.视频图像分析.数据保存等. Hadoop历史雏形开始于2002年的Apache的Nu ...
Linux之Socket编程
1.什么是Socket? socket起源于Unix,而Unix/Linux基本哲学之一就是“一切皆文件”,都可以用“打开open –> 读写write/read –> 关闭close”模 ...
题解【Codeforces1186A】 Vus the Cossack and a Contest
这题是入门难度的题目吧-- 根据题意可以得出,只有当\(m\)和\(k\)都大于等于\(n\)时,\(Vus\)才可以实现他的计划. 因此,我们不难得出以下\(AC\)代码: #include < ...
消息队列（七）--- RocketMQ延时发送和消息重试（半原创）
本文图片和部分总结来自于参考资料,半原创,侵删问题 Rocketmq 重试是否有超时问题,假如超时了如何解决,是重新发送消息呢?还是一直等待假如某个 msg 进入了重试队列(%RETRY_XXX% ...
505，display，float，position之间的关系（有疑问）
(display属性设置元素如何显示) 如果display取值为none,那么position和float都不起作用,这种情况下元素不产生框否则,如果position设置框是绝对定位,float的计 ...
python的datetime库
datetime 库简介获取时间主要提供程序计时器基本使用
Spring错误：org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.binding.Bi
在使用SSM框架传递多个参数的时候发生如下错误: 原因是因为在传递多个参数的时候没有使用注解@Param,所以才包如下错误: 参考的技术文章:https://blog.csdn.net/sinat_2 ...
手码两万余字，SpringMVC 包教包会
1. SpringMVC 简介 1.1 Spring Web MVC是什么 Spring Web MVC 是一种基于 Java 的实现了 Web MVC 设计模式的请求驱动类型的轻量级 Web 框架, ...
laradock ppa加速
环境 laradock-9.7 + win10 + docker desktop laradock 项目地址问题: 构建 workspace 服务时卡在这动不了,各种搜资料终于解决了解决方法: ...

dense向量和稀疏向量sparse

dense向量和稀疏向量sparse的更多相关文章

随机推荐

热门专题