不多说，直接上干货！

Local vector ：本地向量集

　　由两类构成：稀疏型数据集（spares）和密集型数据集（dense）

　　（1）、密集型数据集

　　　　　　例如一个向量数据（9,5,2,7）,可以设定为（9,5,2,7）进行存储，数据集被作为一个集合的形式整体存储。

　　（2）、稀疏型数据集

　　　　　　例如一个向量数据（9,5,2,7）,可以按向量的大小存储为（4，Array（0,1,2,3），Array（9,5,2,7））

testVector.scala

package zhouls.bigdata.chapter4

import org.apache.spark.mllib.linalg.{Vector, Vectors}

object testVector {

  /*

   * 主函数

   */

  def main(args: Array[String]) {

    val vd: Vector = Vectors.dense(2, 0, 6)     //建立密集向量

    println(vd(2))                                //打印密集向量第3个值

    val vs: Vector = Vectors.sparse(4, Array(0,1,2,3), Array(9,5,2,7))//建立稀疏向量

    println(vs(2))                                             //打印稀疏向量第3个值

  }

}

　　有人会问，为什么会输出来为浮点型数了呢。

　　答：对于目前，Spark Mllib，仅支持整数与浮点型数。这是因为与其目的数值计算有关。

　　dense方法，不多赘述。

　　sparse方法，第一个参数4是代表输入数据的大小，一般要求大于等于输入的数据值。

　　　　　　　　第二个参数Array(0,1,2,3)是数据vs下标的数值

　　　　　　　　第三个参数Array(9,5,2,7)是输入的数据值，一般要求将其作为一个Array类型的数据进行输入

　　总结

　　Spark MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：

import org.apache.spark.mllib.linalg.{Vector, Vectors}  

//创建一个稠密向量

val dv : Vector = Vector.dense(1.0,0.0,3.0);

//创建一个稀疏向量（第一种方式）

val sv1: Vector = Vector.sparse(3, Array(0,2), Array(1.0,3.0));

//创建一个稀疏向量（第二种方式）

val sv2 : Vector = Vector.sparse(3, Seq((0,1.0),(2,3.0)))

　　对于稠密向量：很直观，你要创建什么，就加入什么，其函数声明为Vector.dense(values : Array[Double])

　　对于稀疏向量，当采用第一种方式时，3表示此向量的长度，第一个Array(0,2)表示的索引，第二个Array(1.0, 3.0)与前面的Array(0,2)是相互对应的，表示第0个位置的值为1.0，第2个位置的值为3

　　对于稀疏向量，当采用第二种方式时，3表示此向量的长度，后面的比较直观，Seq里面每一对都是(索引，值）的形式。

　　更多具体，见

Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计

Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）的更多相关文章

Spark Mllib里如何删除每一条数据中所有的双引号“”（图文详解）
不多说,直接上干货! 具体,见 Hadoop+Spark大数据巨量分析与机器学习整合开发实战的第13章使用决策树二元分类算法来预测分类StumbleUpon数据集
Hadoop集群搭建安装过程（三）（图文详解---尽情点击！！！）
Hadoop集群搭建安装过程(三)(图文详解---尽情点击!!!) 一.JDK的安装安装位置都在同一位置(/usr/tools/jdk1.8.0_73) jdk的安装在克隆三台机器的时候可以提前安装 ...
Hadoop集群搭建安装过程（二）（图文详解---尽情点击！！！）
Hadoop集群搭建安装过程(二)(配置SSH免密登录)(图文详解---尽情点击!!!) 一.配置ssh无密码访问 ®生成公钥密钥对 1.在每个节点上分别执行: ssh-keygen -t rsa(一 ...
全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装OpenCV（离线方式和在线方式）（图文详解）
不多说,直接上干货! 说明: Anaconda2-5.0.0-Windows-x86_64.exe安装下来,默认的Python2.7 Anaconda3-4.2.0-Windows-x86_64.ex ...
全网最详细的Windows系统里Oracle 11g R2 Client（64bit）的下载与安装（图文详解）
不多说,直接上干货! 环境: windows10系统(64位) 最好先安装jre或jdk(此软件用来打开oracle自带的可视化操作界面,不装也没关系:可以安装plsql,或者直接用命令行操作) Or ...
全网最详细的CentOS7里如何安装MySQL（得改为替换安装MariaDB）（图文详解）
不多说,直接上干货! 直接yum install mysql的话会报错,原因在于yum安装库里没有直接可以用的安装包,此时需要用到MariaDB了,MariaDB是MySQL社区开发的分支,也是一个增 ...
kafka_2.11-0.8.2.2.tgz的3节点集群的下载、安装和配置（图文详解）
kafka_2.10-0.8.1.1.tgz的1或3节点集群的下载.安装和配置(图文详细教程)绝对干货一.安装前准备 1.1 示例机器二. JDK7 安装 1.1 下载地址下载地址: http: ...
Spark Mllib里的本地矩阵概念、构成（图文详解）
不多说,直接上干货! Local matrix:本地矩阵数组Array(1,2,3,4,5,6)被重组成一个新的2行3列的矩阵. testMatrix.scala package zhouls.bi ...
Spark Mllib里如何建立向量标签（图文详解）
不多说,直接上干货! 注意: val pos = LabeledPoint(1, vd) val neg = LabeledPoint(2, vs) 除了这两种建立向量标签.还可以从数据库中获取固定格 ...

随机推荐

listen 59
Different Brain Regions Handle Different Music Types (Vivaldi) versus (the Beatles) . Both great. Bu ...
mysql之count
两种引擎对count的处理 CREATE TABLE `test` ( `id` int(11) unsigned NOT NULL AUTO_INCREMENT, `name` char(15) D ...
使用mutt+msmtp做linux邮件客户端
下载MSMTP wget http://nchc.dl.sourceforge.net/sourceforge/msmtp/msmtp-1.4.17.tar.bz2 tar xvf msmtp-1 ...
P2060 [HNOI2006]马步距离
P2060 [HNOI2006]马步距离数据到百万级别,明显爆搜不行,剪枝也没法剪.先打表.发现小数据内步数比较受位置关系影响,但数据一大就不影响了.大概搜了一个20*20的表把赋值语句打出来.判断 ...
MSTAR 平台
MApp_Menu.c ZUI_exefunc.h //菜单属性 MApp_ZUI_APItables.h #define GETWNDINFO(hwnd) (&g_GUI_WindowLis ...
python--环境变量的使用
用python 环境变量取代sys.path echo -en "PYTHONPATH=$PYTHONPATH:~/demo" >>~/.bashrc export ~ ...
go语言中将函数作为变量传递
在Go中函数也是一种变量,我们可以通过type来定义它,它的类型就是所有拥有相同的参数,相同的返回值的一种类型,函数当做值和类型在我们写一些通用接口的时候非常有用,通过下面这个例子我们可以看到test ...
Mysql多列索引经典案例
一个经典的多列索引案例,如题: 假设某个表有一个联合索引(c1,c2,c3,c4)一下--只能使用该联合索引的 c1,c2,c3 部分 Awhere c1=x and c2=x and c4>x ...
sqlserver2012——EXCEPT差查询
代表第一个select查询结果与第二个select查询结果去除相交后的数据
.net 扩展方法，lamada表达式委托
扩展方法 (1)扩展方法是一种特殊的静态方法,它定义在一个静态类中,但可以在其他类的对象上向调用实例方法那样进行调用.因此,通过扩展方法,我们就可以在不修改一个类型的前提下对一个类型进行功能上的扩充, ...

Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）

Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计

Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）的更多相关文章

随机推荐

热门专题