dense向量和稀疏向量sparse

import org.apache.spark.mllib.linalg.Vectors

object Test {

  def main(args: Array[String]) {

    val vd = Vectors.dense(2, 5, 8)

    println(vd(1))

    println(vd)

    //向量个数，序号，value

    val vs = Vectors.sparse(4, Array(0, 1, 2, 3), Array(9, 3, 5, 7))

    println(vs(0)) //序号访问

    println(vs)

    val vs2 = Vectors.sparse(4, Array(0, 2, 1, 3), Array(9, 3, 5, 7))

    println(vs2(2))

    println(vs2)

  }

}

5.0

[2.0,5.0,8.0]

9.0

(4,[0,1,2,3],[9.0,3.0,5.0,7.0])

3.0

(4,[0,2,1,3],[9.0,3.0,5.0,7.0])

本地向量（Local Vector）存储在单台机器上，索引采用0开始的整型表示，值采用Double类型的值表示。Spark MLlib中支持两种类型的矩阵，

分别是密度向量（Dense Vector）和稀疏向量（Spasre Vector），密度向量会存储所有的值包括零值，而稀疏向量存储的是索引位置及值，

不存储零值，在数据量比较大时，稀疏向量才能体现它的优势和价值。下面给出其应用示例：

spark 稠密向量和稀疏向量

Spark mlib的本地向量有两种：

DenseVctor   ：稠密向量   其创建方式   Vector.dense(数据)

SparseVector ：稀疏向量   其创建方式有两种：

　　方法一：Vector.sparse(向量长度，索引数组，与索引数组所对应的数值数组)

　　方法二：Vector.sparse(向量长度，（索引，数值），（索引，数值），（索引，数值），...(索引，数值))

示例：

比如向量（1,0,3,4）的创建有三种方法：

稠密向量：直接Vectors.dense(1,0,3,4)

稀疏向量：

方法一：Vector.sparse(4,(0,2,3),(1,3,4))  (0,2,3)

　　　　表示该向量的第0个，第2个，第3个位置，(1,3,4) 表示（0,2,3）位置对应的数值分别为1,3,4

方法二：Vector.sparse(4,(0,1),(2,3),(3,4))

　　　　（0,1）就是（索引，数值）的形式。位置0的数值为1, 位置2的数值为3,位置3的数值为4

dense向量和稀疏向量sparse的更多相关文章

spark-mllib 密集向量和稀疏向量
spark-mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 . 局部向量和局部矩阵是用作公共接口的最简单的数据模型. 基本的线 ...
Spark的mlib中的稠密向量和稀疏向量
spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVecto ...
spark 稠密向量和稀疏向量
Spark mlib的本地向量有两种: DenseVctor :稠密向量其创建方式 Vector.dense(数据) SparseVector :稀疏向量其创建方式有两种: 方法一 ...
Mllib数据类型（密集向量和稀疏向量）
1.局部向量 Mllib支持2种局部向量类型:密集向量(dense)和稀疏向量(sparse). 密集向量由double类型的数组支持,而稀疏向量则由两个平行数组支持. example: 向量(5.2 ...
Spark Mllib里如何建立密集向量和稀疏向量（图文详解）
不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
scala 稀疏向量
http://mocom.xmu.edu.cn/article/show/58481eb2e083c990247075a5/0/1 1. /创建一个标签为1.0(分类中可视为正样本)的稠密向量标注点 ...
TF-IDF计算相似度为什么要对稀疏向量建立索引？
TF-IDF的向量表示的稀疏问题之前在看tf-idf代码时候思考了一个问题,不知道对于初学的大部分同学有没有这样一个疑惑,用tf-idf值构成的向量,维度可能跟词表的大小有关,那么对于一句话来说,这 ...
稀疏表示 Sparse Representation
稀疏表示_百度百科 https://baike.baidu.com/item/%E7%A8%80%E7%96%8F%E8%A1%A8%E7%A4%BA/16530498 信号稀疏表示是过去近20年来信 ...
第17章内存映射文件（3）_稀疏文件(Sparse File)
17.8 稀疏调拨的内存映射文件 17.8.1 稀疏文件简介 (1)稀疏文件(Sparse File):指的是文件中出现大量的0数据,这些数据对我们用处不大,但是却一样的占用空间.NTFS文件系统对此 ...

随机推荐

SpringCloud 设置多个运行实例的端口号
使用SpringCloud做集群,开发.测试阶段,经常要运行一个模块的多个实例,要修改端口号. 有3种方式. 方式一:配置文件 server.port=9001 方式二.修改引导类,控制台输入参数值 ...
fiddler中文乱码解决方案
只用添加一个注册表变量就行 cmd窗口执行regedit命令,在弹出的注册表编辑界面找到fiddler 右击新建一个字符传值 HeaderEncodingGBK 结果如上图右所示~ 重启fiddler ...
FreeRTOS学习笔记3：内核控制及开启调度器
内核控制函数API 应用层中不会用到taskYIELD() //任务切换.会自动切换当前就绪表里优先级最高的任务临界区 //不能被打断的代码段任务中进入临界区任务中退出临界区中断服务进入临界区中断服 ...
bugku 变量1
变量1 题目信息 flag In the variable ! <?php error_reporting(0); include "flag1.php"; highligh ...
Python 多任务（进程） day1（1）
进程和程序的关系: 通俗来讲程序是死的不变的,进程是活的改变的.一个程序在没运行之前是程序,运行之后是进程程序是一种电脑能识别的2进制代码,当你一直运行程序的时候,会出现多个进程(相当于菜谱和菜,照 ...
【C语言】用函数实现两个数排序（指针作函数参数）
原理就不讲了,这里用来理解指针的使用方法 #include <stdio.h> void fun(int* a,int* b) { int t; if(*a>=*b) { t = * ...
每天进步一点点------altium designer 实用的快捷键
1.设计浏览器快捷键: 鼠标左击选择鼠标位置的文档鼠标双击编辑鼠标位置的文档鼠标右击 ...
C# 之代码实现延时
Task.Delay();异步实现 using System;using System.Threading.Tasks; namespace csharpYS{ class Program { sta ...
喵星之旅-狂奔的兔子-centos7一键安装redmine
一.安装环境 CentOS-7-x86_64-DVD-1908.iso 二.获取安装文件从官网获取,在下载页面提供了多种安装,最下方是一键安装版本,里面有两种选择,一个是安装包,一个是虚拟机硬盘文件 ...
radhat 6.7修改mac地址方法
vi ifcfg-eth0 #HW……,即注释掉原硬件地址. 再自己照着原地址写:MACADDR="新mac地址" 重启

dense向量和稀疏向量sparse

dense向量和稀疏向量sparse的更多相关文章

随机推荐

热门专题