spark向量

转自

1、本地向量
MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：

 import org.apache.spark.mllib.linalg.{Vector, Vectors}  

 //创建一个稠密向量

 val dv : Vector = Vector.dense(1.0,0.0,3.0);

 //创建一个稀疏向量（第一种方式）

 val sv1: Vector = Vector.sparse(, Array(,), Array(1.0,3.0));

 //创建一个稀疏向量（第二种方式）

 val sv2 : Vector = Vector.sparse(, Seq((,1.0),(,3.0)))

对于稠密向量：很直观，你要创建什么，就加入什么，其函数声明为Vector.dense(values : Array[Double])
对于稀疏向量，当采用第一种方式时，3表示此向量的长度，第一个Array(0,2)表示的索引，第二个Array(1.0, 3.0)与前面的Array(0,2)是相互对应的，表示第0个位置的值为1.0，第2个位置的值为3
对于稀疏向量，当采用第二种方式时，3表示此向量的长度，后面的比较直观，Seq里面每一对都是(索引，值）的形式。

tips:由于scala中会默认包含scal.collection.immutalbe.Vector，所以当使用MLlib中的Vector时，需要显式的指明import路径

2、向量标签
向量标签和向量是一起的，简单来说，可以理解为一个向量对应的一个特殊值，这个值的具体内容可以由用户指定，比如你开发了一个算法A，这个算法对每个向量处理之后会得出一个特殊的标记值p，你就可以把p作为向量标签。同样的，更为直观的话，你可以把向量标签作为行索引，从而用多个本地向量构成一个矩阵（当然，MLlib中已经实现了多种矩阵）
其使用代码为：

 import org.apache.spark.mllib.linag.Vectors

 import org.apache.spark.mllib.regression.LabeledPoint  

 val pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))

对于pos变量，第一个参数1.0的具体含义只有你自己知道咯，可以使行索引，可以使特殊值神马的
从文件中直接读入一个LabeledPoint
MLlib提供了一种快捷的方法，可以让用户直接从文件中读取LabeledPoint格式的数据。规定其输入文件的格式为：

label index1:value1 index2:value2.....

然后通过一下方式直接读入即可

val test : RDD[LabeledPoint] = MLUtils.loadLibSVMFile(sc, "path")

3、本地矩阵
既然是算数运算包，肯定少不了矩阵包，先上代码：

     import org.apache.spark.mllib.linalg.{Matrix, Matrices}

     val dm : Matrix = Matrices.dense(3,2, Array(1.0,3.0,5.0,2.0,4.0,6.0))

上面的代码段创建了一个稠密矩阵：

1.0	2.0
3.0	4.0
5.0	6.0

很明显，创建的时候是将原来的矩阵按照列变成一个一维矩阵之后再初始化的。 tips:注意，我们创建的是稠密矩阵，不幸的事，MLlib中并没有提供稀疏矩阵的实现，官方说在后续版本中会提供

。。。。。。

spark向量的更多相关文章

spark向量、矩阵类型
先来个普通的数组: scala> var arr=Array(1.0,2,3,4) arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0) 可以将它转换成一 ...
Spark的mlib中的稠密向量和稀疏向量
spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVecto ...
Spark机器学习中ml和mllib中矩阵、向量
1:Spark ML与Spark MLLIB区别? Spark MLlib是面向RDD数据抽象的编程工具类库,现在已经逐渐不再被Spark团队支持,逐渐转向Spark ML库,Spark ML是面向D ...
Spark MLlib 之 Vector向量深入浅出
Spark MLlib里面提供了几种基本的数据类型,虽然大部分在调包的时候用不到,但是在自己写算法的时候,还是很需要了解的.MLlib支持单机版本的local vectors向量和martix矩阵,也 ...
Spark mlib的本地向量
Spark mlib的本地向量有两种: DenseVctor :稠密向量其创建方式 Vector.dense(数据) SparseVector :稀疏向量其创建方式有两种: 方法一:Vector. ...
spark 稠密向量和稀疏向量
Spark mlib的本地向量有两种: DenseVctor :稠密向量其创建方式 Vector.dense(数据) SparseVector :稀疏向量其创建方式有两种: 方法一 ...
Spark Mllib里的向量标签概念、构成（图文详解）
不多说,直接上干货! Labeled point: 向量标签向量标签用于对Spark Mllib中机器学习算法的不同值做标记. 例如分类问题中,可以将不同的数据集分成若干份,以整数0.1.2,... ...
Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）
不多说,直接上干货! Local vector : 本地向量集由两类构成:稀疏型数据集(spares)和密集型数据集(dense) (1).密集型数据集例如一个向量数据(9,5,2,7),可以设 ...
Spark Mllib里如何建立向量标签（图文详解）
不多说,直接上干货! 注意: val pos = LabeledPoint(1, vd) val neg = LabeledPoint(2, vs) 除了这两种建立向量标签.还可以从数据库中获取固定格 ...

随机推荐

js学习笔记第二篇
Js笔记整理 1.StringAPI a) 大小写转换:str.toUpperCase();str.toLowerCase(); b) 获取指定位置字符: Str[i]-- ...
Calendar Game
http://poj.org/problem?id=1082 Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 4820 A ...
Android（java）学习笔记105：Map集合的遍历之键值对对象找键和值
package cn.itcast_01; import java.util.HashMap; import java.util.Map; import java.util.Set; /* * Map ...
前端必会html知识整理
1.浏览器内核: 1.ie:trident(三叉戟)内核 2.firefox:gecko(壁虎)内核 3.safari:webkit(浏览器核心)内核 ...
Android之Handler探索
Handler背景理解: Handler被最多的使用在了更新UI线程中,但是,这个方法具体是什么样的呢?我在这篇博文中先领着大家认识一下什么是handler以及它是怎么样使用在程序中,起着什么样的作用 ...
php实现MVC
在PHP中使用MVC越来越流行了,特别是在一些开源的框架当中.MVC足以应对大多数的情况,但还有一些情况是其不太适合的,如比较简单的个人博客,对于只有几百篇文章量级的博客,使用MVC让人觉得有些太复杂 ...
SSH整合_struts.xml 模板
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "- ...
The Signals Of Process Communication
在之前大概的概述了进程之间的通信,下面笔者具体述说一下进程通信中最古老的一种通信方式之一---信号(Signals ),信号是用户进程之间通信和同步的一种原始机制,操作系统通过信号来通知进程系统中发生 ...
Linux 命令 - crontab: 任务调度
cron 是一个 Linux 下的定时执行工具,可以在无需人工干预的情况下运行作业.守护进程 cron 会读取 crontab 文件,根据配置在指定的时间执行任务.contab 命令用来添加.删除.显 ...
Java集合类 java.util包
概述软件包类使用树已过时索引帮助 JavaTM Platform Standard Ed. 6 上一个软件包下一个软件包框架无框架 ...

spark向量

spark向量的更多相关文章

随机推荐

热门专题