SPARK数据类型

转自： http://www.cnblogs.com/tuitui1989/p/5331113.html

一.本地向量

　　有如下几个类: Vector(基类),DenseVector,SparseVector,Vectors(工厂方法,推荐用)

工厂模式是：定义一个用于创建对象的接口，让子类决定实例化哪一个类，使一个类的实例化延迟到子类

import org.apache.spark.mllib.linalg.{Vectors,Vector} # linalg is short for linear algebra

val v1=Vectors.dense(1.0,2.0,3.0) #定义1

val v2 =Vectors.sparse(3,(1,2),(10,100)) #长度为3,第１,2个位置的值为10和100

val v3=Vectors.sparse(3,Seq((1,10),(2,100))) #结果同上

二.带有标签的向量

　　主要应用在有监督学习中，二分类(0,1),多分类(0,1,2,3,....)

import org.apache.spark.mllib.Regression.LabeledPoint;

val vl1=LabeledPoint(1,Vectors.dense(1,2,3,4))

val vl2=LabeledPoint(0,Vectors.sparse(3,(1,2),(10,100)))

三.读取LIBSVM格式的数据

<label> <index1>:<value1> <index2>:<value2> ...

其中<label> 是训练数据集的目标值，对于分类，它是标识某类的整数（支持多个类）；对于回归，是任意实数。<index> 是以1开始的整数，可以是不连续的；<value>；为实数，也就是我们常说的自变量。检验数据文件中的label只用于计算准确度或误差，如果它是未知的，只需用一个数填写这一栏，也可以空着不填.

例如:

0 1:10 3:19
1 1:18 3:20 4:178

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.mllib.util.MLUtils

import org.apache.spark.rdd.RDD

val svmfile=MLUtils.loadLibSVMFile(sc,"svmdata2")

四.创建本地矩阵

　　本地矩阵是行列号索引，值为double类型的数据,存储在单独的机器上.支持稠密矩阵和稀疏矩阵。

与Vector和Ｖectors的关系类似,Matrix有对应的Matrices

　　对于稀疏矩阵的压缩方法,具体可以参考http://www.tuicool.com/articles/A3emmqi，spark默认的为CSC格式的压缩

import org.apache.spark.mllib.linalg.{Matrix,Matrices}

val m1=Matrices.dense(3,2,Array(1,2,3,4,5,6))

val m2=Matrices.sparse(3,2,Array(0,1,3),Array(0,2,1),Array(9,6,8))

参考csc压缩方法,m2　手工算的结果，应该是

(0,0)9

(2,0)6

(1,1)8

与spark计算的有出入。

五.分布式矩阵

　　选择一个正确的形式去存储大的分布式矩阵非常重要, 将分布式矩阵转化为不同的格式需要全局的shuffle,代价很大。目前有三种类型的分布式矩阵,RowMatrix,IndexedRowMatrix,CoordinateMatrix.

　　什么是shuffle呢？参考http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/

通常shuffle分为两部分,map阶段的数据准备以及Reduce阶段的数据拷贝,Map阶段需要根据Reduce阶段的Task数量决定每个Map Task输出的数据分片数目

RowMatrix是没有行索引，例如一些特征向量，没一行是一个本地向量。

IndexedRowMatrix,有行索引，可以用于识别行和执行链接操作

CoordinateMatrix存成COO形式

构造RowMatrix

import org.apache.spark.mllib.linalg.{Vector,Vectors}

import org.apache.spark.mllib.linalg.distributed.RowMatrix

val data=sc.parallelize(1 to 9,3) #RDD形式

val rows=data.map(x=>Vectors.dense(x))

val m1=new RowMatrix(rows,3,3)

m1.numRows

m1.numCols

构造IndexedRowMatrix

import org.apache.spark.mllib.linalg.distributed.{IndexedRow, IndexedRowMatrix, RowMatrix}

val data1=sc.parallelize(1 to 12,2)

val rows1=data1.map(x=>IndexedRow(2,Vectors.dense(x)))

val mat=new IndexedRowMatrix(rows1,3,4)

mat.numRows()

mat.numCols()

构造COO #对于稀疏矩阵比较有用，指定非空元素的行列以及value即可

import org.apache.spark.mllib.linalg.distributed.{CoordinateMatrix, MatrixEntry}

val data2=sc.parallelize(1 to 20 ,4)

val rows2=data1.map(x=>MatrixEntry(1,1,3))

val m2=new CoordinateMatrix(rows2,4,5)

val data3=sc.textFile("coo").map(_.split(' ')).map(_.map(_.toDouble)).map(m=>(m(0).toLong,m(1).toLong,m(2))).map(x=>new MatrixEntry(x._1,x._2,x._3))

val m3=new CoordinateMatrix(data3,3,4)

#构造BlockMatrix

val m4=m3.toBlockMatrix()

SPARK数据类型的更多相关文章

一、spark 数据类型(Data Types)
Data Types - MLlib(数据类型) MLlib支持存储在单机上的局部向量和局部矩阵,也可以支持通过一个或多个RDD(可伸缩数据集)表示的分布式矩阵.局部向量和局部矩阵是用作公 ...
Spark数据类型SparseMatrix 解释
http://blog.csdn.net/sinat_29508201/article/details/54089771 parseMatrix Spark的mllib包中提供了机器学习的两种基本数据 ...
初识spark的MLP模型
初识Spark的MLP模型 1. MLP介绍 Multi-layer Perceptron(MLP),即多层感知器,是一个前馈式的.具有监督的人工神经网络结构.通过多层感知器可包含多个隐藏层,实现对非 ...
Spark译文(二)
PySpark Usage Guide for Pandas with Apache Arrow(使用Apache Arrow的Pandas PySpark使用指南) Apache Arrow in ...
【CDN+】 Spark 的入门学习与运行流程
前言上文已经介绍了与Spark 息息相关的MapReduce计算模型,那么相对的Spark的优势在哪,有哪些适合大数据的生态呢? Spark对比MapReduce,Hive引擎,Storm流式计算引 ...
Spark MLib 数据类型
1. MLlib Apache Spark's scalable machine learning library, with APIs in Java, Scala and Python. 2. ...
Spark PySpark数据类型的转换原理—Writable Converter
Spark目前支持三种开发语言:Scala.Java.Python,目前我们大量使用Python来开发Spark App(Spark 1.2开始支持使用Python开发Spark Streaming ...
Spark(Hive) SQL数据类型使用详解(Python)
Spark SQL使用时需要有若干“表”的存在,这些“表”可以来自于Hive,也可以来自“临时表”.如果“表”来自于Hive,它的模式(列名.列类型等)在创建时已经确定,一般情况下我们直接通过Spar ...
Spark MLlib数据类型
MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵. 1,本地向量(Local Ve ...

随机推荐

关于lidroid xUtils 开源项目
最近搜了一些框架供初学者学习,比较了一下XUtils是目前git上比较活跃功能比较完善的一个框架,是基于afinal开发的,比afinal稳定性提高了不少,下面是介绍: xUtils简介 xUtil ...
关于新建android项目时 appcompat_v7报错问题的一点总结
说下我的解决方案: 1.确保 appcompat项目的 target版本低于实际项目的android版本(就像.net中低版本的 framewrok项目不能引用高版本framework项目一样) ...
Python数据结构算法
Python内置了许多非常有用的数据结构,比如列表(list),集合(set)以及字典(dictionary).就绝大部分情况而言,我们可以直接使用这些数据结构.但是,我们通常还要考虑比如搜索,排序, ...
Vcenter一次性将服务器四个网卡从端口组迁移到分布式交换机的方法
如果你的服务器已经在清单列表里了,那么可以先从分布式交换机将这台服务器删除,然后再添加一次.这个时候的添加就可以选择四个网卡(包括端口组,包括管理端口组),一次性加入分布式交换机
[UE4]蒙太奇动画运行时不播放，预览是好的
动画实例里面没有添加“DefaultSlot”就会出现这样的问题
Eclipse里面的Maven项目如果下载依赖的jar包的源码
Window---------Properties---------------Maven--------------勾选Download Artifact Sources和Download Arti ...
理解Storm Metrics
在hadoop中,存在对应的counter计数器用于记录hadoop map/reduce job任务执行过程中自定义的一些计数器,其中hadoop任务中已经内置了一些计数器,例如CPU时间,GC时间 ...
Spark分析之MemoryStore
private case class MemoryEntry(value: Any, size: Long, deserialized: Boolean) class MemoryStore(bloc ...
Hadoop2.0构成之YARN
YARN产生背景 Hadoop1.x中的MapReduce构成图如下: 在Hadoop1.x中MapReduce是Master/Slave结构,在集群中的表现形式为:1个JobTracker带多个Ta ...
了解java的类加载器
1.java运行之前,编译后的class文件需要加载到虚拟机内存,这必须用到class的加载器来加载,所以有必要了解加载器原理. 2.加载器采用父类委派机制加载,这样的目的是保证基础类仅仅加载一次(比 ...

SPARK数据类型

SPARK数据类型的更多相关文章

随机推荐

热门专题