此部分主要关于MLlib的基础数据结构

1、本地向量

MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：

对于稠密向量：很直观，你要创建什么，就加入什么，其函数声明为Vector.dense(values : Array[Double])

对于稀疏向量，当采用第一种方式时，3表示此向量的长度，第一个Array(0,2)表示的索引，第二个Array(1.0, 3.0)与前面的Array(0,2)是相互对应的，表示第0个位置的值为1.0，第2个位置的值为3

对于稀疏向量，当采用第二种方式时，3表示此向量的长度，后面的比较直观，Seq里面每一对都是(索引，值）的形式。

tips:由于scala中会默认包含scal.collection.immutalbe.Vector，所以当使用MLlib中的Vector时，需要显式的指明import路径

2、向量标签

向量标签和向量是一起的，简单来说，可以理解为一个向量对应的一个特殊值，这个值的具体内容可以由用户指定，比如你开发了一个算法A，这个算法对每个向量处理之后会得出一个特殊的标记值p，你就可以把p作为向量标签。同样的，更为直观的话，你可以把向量标签作为行索引，从而用多个本地向量构成一个矩阵（当然，MLlib中已经实现了多种矩阵）

其使用代码为：

对于pos变量，第一个参数1.0的具体含义只有你自己知道咯，可以使行索引，可以使特殊值神马的

从文件中直接读入一个LabeledPoint

MLlib提供了一种快捷的方法，可以让用户直接从文件中读取LabeledPoint格式的数据。规定其输入文件的格式为：

然后通过

 val test : RDD[LabeledPoint] = MLUtils.loadLibSVMFile(sc, "path")

直接读入即可。

3、本地矩阵

既然是算数运算包，肯定少不了矩阵包，先上代码：

 import org.apache.spark.mllib.linalg.{Matrix, Matrices}  

 val dm : Matrix = Matrices.dense(3,2, Array(1.0,3.0,5.0,2.0,4.0,6.0))

上面的代码段创建了一个稠密矩阵：

1.0	2.0
3.0	4.0
5.0	6.0

很明显，创建的时候是将原来的矩阵按照列变成一个一维矩阵之后再初始化的。

tips:注意，我们创建的是稠密矩阵，不幸的事，MLlib中并没有提供稀疏矩阵的实现，官方说在后续版本中会提供。

4、分布式矩阵

MLlib提供了三种分布式矩阵的实现，依据你数据的不同的特点，你可以选择不同类型的数据：

a、RowMatrix

RowMatrix矩阵只是将矩阵存储起来，要注意的是，此种矩阵不能按照行号访问。

import org.apache.spark.mllib.linalg.Vector

import org.apache.spark.mllib.linalg.distributed.RowMatrix

val rows: RDD[Vector] = ...//

val mat: RowMatrix = new RowMatrix(rows)  

val m = mat.numRows()

val n = mat.numCols()

RowMatrix要从RDD[Vector]构造，m是mat的行数，n是mat的列

Multivariate summary statistics

顾名思义，这个类里面包含了矩阵中的很多常见信息，怎么使用呢？

 import org.apache.spark.mllib.linalg.Matrix

 import org.apache.spark.mllib.linalg.distributed.RowMatrix

 import org.apache.spark.mllib.stat.MultivariateStatisticalSummary  

 val mat: RowMatrix = ..  

 val summy : MultivariateStatisticalSummary = mat.computeColumnSummaryStatistics()

 println(summy.mean)//平均数

通过这个类，可以得到平均数，矩阵中非0个数，具体的数据看看帮助文档

b、IndexedRowMatrix

IndexedRowMatrix矩阵和RowMatrix矩阵的不同之处在于，你可以通过索引值来访问每一行。其他的，没啥区别。。

c、CoordinateMatrix

当你的数据特别稀疏的时候怎么办？采用这种矩阵吧。先上代码：

 import org.apache.spark.mllib.linalg.distributed.{CoordinatedMatrix, MatrixEntry}  

 val entries : RDD[MatrixEntry] = ..

 val mat: CoordinateMatrix = new CoordinateMatrix(entries)

CoordinateMatrix矩阵中的存储形式是（row，col，value），就是原始的最稀疏的方式，所以如果矩阵比较稠密，别用这种数据格式

关于SparkMLlib的基础数据结构 Spark-MLlib-Basics的更多相关文章

Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l“机器学 ...
【原创 Hadoop&Spark 动手实践 12】Spark MLLib 基础、应用与信用卡欺诈检测系统动手实践
[原创 Hadoop&Spark 动手实践 12]Spark MLLib 基础.应用与信用卡欺诈检测系统动手实践
Spark入门实战系列--8.Spark MLlib（下）--机器学习库SparkMLlib实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .MLlib实例 1.1 聚类实例 1.1.1 算法说明聚类(Cluster analys ...
spark MLLib的基础统计部分学习
参考学习链接:http://www.itnose.net/detail/6269425.html 机器学习相关算法,建议初学者去看看斯坦福的机器学习课程视频:http://open.163.com/s ...
spark MLlib BasicStatistics 统计学基础
一, jar依赖,jsc创建. package ML.BasicStatistics; import com.google.common.collect.Lists; import org.apach ...
Spark MLlib（下）--机器学习库SparkMLlib实战
1.MLlib实例 1.1 聚类实例 1.1.1 算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可 ...
Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
GeneralizedLinearAlgorithm in Spark MLLib
GeneralizedLinearAlgorithm SparkMllib涉及到的算法 Classification Linear Support Vector Machines (SVMs) Log ...
转载：Databricks孟祥瑞：ALS 在 Spark MLlib 中的实现
Databricks孟祥瑞:ALS 在 Spark MLlib 中的实现发表于2015-05-07 21:58| 10255次阅读| 来源<程序员>电子刊| 9 条评论| 作者孟祥瑞大 ...

随机推荐

MyBatis3: There is no getter for property named 'code' in 'class java.lang.String'
mybatis3 : mysql文如下,传入参数为string类型时‘preCode’,运行报错为:There is no getter for property named 'preCode' i ...
jquery validate自定义checkbox验证规则和样式
参考:http://blog.csdn.net/xh16319/article/details/9987847 自定义checkbox验证,“检查checkbox是否选中” jQuery.valida ...
Java读写文件的几种方式
自工作以后好久没有整理Java的基础知识了.趁有时间,整理一下Java文件操作的几种方式.无论哪种编程语言,文件读写操作时避免不了的一件事情,Java也不例外.Java读写文件一般是通过字节.字符和行 ...
Java for LeetCode 179 Largest Number
Given a list of non negative integers, arrange them such that they form the largest number. For exam ...
ssm操作控制台输出sql语句 log4j.properties
# Configures Log4j for Tomcat and Sakai # use "A" for log in with catalina.out (actually s ...
iOS7隐藏顶部状态栏
找到工程中的Supporting Files/工程名-info.plist 添加设置 1.status bar is initially hidden=YES 2.View Controller-ba ...
cf584a(水题)
题意是输出一个能被t整除的n位数... 思路很简单,输出t和n-1个0即可.当然,还需要特判一下t为1,n为10的情况.. 代码如下: #include <bits/stdc++.h> u ...
Java中比较不同的MD5计算方式
在项目中经常需要使用计算文件的md5,用作一些用途,md5计算算法,通常在网络上查询时,一般给的算法是读取整个文件的字节流,然后计算文件的md5,这种方式当文件较大,且有很大并发量时,则可能导致内存打 ...
Android__Context
Context字面意思上下文,位于framework package的android.content.Context中, 其实该类为LONG型,类似Win32中的Handle句柄,很多方法需要通过Co ...
驱动模式使用__try __excpet
内核模式下判断内存可读可写(下面两个函数是判断ring3的内存.我也搞不懂有啥用) VOID ProbeForRead( IN CONST VOID *Address, IN SIZE_T Lengt ...

关于SparkMLlib的基础数据结构 Spark-MLlib-Basics