scala知识点（一）

1.drop,dropRight,dropWhile

drop: drop(n: Int): List[A] 丢弃前n个元素，返回剩下的元素

dropRight: dropRight(n: Int): List[A] 丢弃最后n个元素，返回剩下的元素

dropWhile: dropWhile(p: (A) ⇒ Boolean): List[A] 从左向右丢弃元素，直到条件p不成立

 val nums = List(1,1,1,1,4,4,4,4)

 val left = nums.drop(4)   // List(4,4,4,4)

 val right = nums.dropRight(4) // List(1,1,1,1)

 val tailNums = nums.dropWhile( _ == nums.head)  // List(4,4,4,4)

还有更多的操作 http://blog.csdn.net/pzw_0612/article/details/45936165

2. GraphX 图数据建模和存储

原文： http://blog.csdn.net/pelick/article/details/47293495

(1)背景:简单分析一下GraphX是怎么为图数据建模和存储的。

(2)入口:可以看 GraphLoader 的函数，

 def edgeListFile(

   sc: SparkContext,

   path: String,

   canonicalOrientation: Boolean = false,

   numEdgePartitions: Int = -1,

   edgeStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY,

   vertexStorageLevel: StorageLevel = StorageLevel.MEMORY_ONLY)

 : Graph[Int, Int]

　path可以是本地路径(文件或文件夹)，也可以是hdfs路径，本质上是使用 sc.textFile 来生成HadoopRDD的， numEdgePartitions 是分区数。
Graph的存储是分EdgeRDD和VertexRDD两块，可以分别设置StorageLevel。默认是内存。
这个函数接受边文件，即’1 2’, ‘4 1’这样的点到点的数据对组成的文件。把这份文件按分区数和存储level转化成一个可以操作的图。

(3)流程:

sc.textFile 读文件，生成原始的RDD
每个分区(的计算节点)把每条记录放进 PrimitiveVector 里，这个结构是spark里为primitive数据优化的存储结构。
把 PrimitiveVector 里的数据一条条取出，转化成 EdgePartition ，即 EdgeRDD 的分区实现。这个过程中生成了面向列存的结构：src点的array，dst点的array，edge的属性array，以及两个正反向map(用于对应点的local id和global id)。
对 EdgeRDD 做一次count触发这次边建模任务，真正persist起来。
用 EdgePartition 去生成一个 RoutingTablePartition ，里面是vertexId到partitionId的对应关系，借助 RoutingTablePartition 生成 VertexRDD 。
由 EdgeRDD 和 VertexRDD 生成 Graph 。前者维护了边的属性、边两头顶点的属性、两头顶点各自的global vertexID、两头顶点各自的local Id（在一个edge分区里的array index）、用于寻址array的正反向map。后者维护了点存在于哪个边的分区上的Map。

以下是代码，比较清晰地展现了内部存储结构。

private[graphx]

class EdgePartition[

  @specialized(Char, Int, Boolean, Byte, Long, Float, Double) ED: ClassTag, VD: ClassTag](

  localSrcIds: Array[Int],

  localDstIds: Array[Int],

  data: Array[ED],

  index: GraphXPrimitiveKeyOpenHashMap[VertexId, Int],

  global2local: GraphXPrimitiveKeyOpenHashMap[VertexId, Int],

  local2global: Array[VertexId],

  vertexAttrs: Array[VD],

  activeSet: Option[VertexSet])

  extends Serializable {

/**

 * Stores the locations of edge-partition join sites for each vertex attribute in a particular

 * vertex partition. This provides routing information for shipping vertex attributes to edge

 * partitions.

 */

private[graphx]

class RoutingTablePartition(

    private val routingTable: Array[(Array[VertexId], BitSet, BitSet)]) extends Serializable {

(4)GraphLoader:graphLoader是graphx中专门用于图的加载和生成，最重要的函数就是edgeListFile

(5)IllegalArgumentException此异常表明向方法传递了一个不合法或不正确的参数。

(6)GraphX提供了ConnectedComponents和StronglyConnected-Components算法，使用它们可以快速计算出相应的连通图

(7)val graph = GraphLoader.edgeListFile(sc, "/home/spark/spark/graphx/data/followers.txt")//加载边时顶点是边上出现的点

(8)val bobsScore = scores.getOrElse("Bob", 0) 检查是否包含指定的键。

scala知识点（一）的更多相关文章

Scala 知识点掌握1
Scala知识点巩固 1.Scala简介 Scala是一门面向对象和面向函数的编程语言,是一门静态编程语言,如 Java Scala(变量类型在编译阶段确定):源码文件需要基于 JVM 运行的. 动态 ...
Scala 知识点掌握2
Scala 基础知识点巩固2 1.集合中常用的函数 sum / max / min # 定义一个List[Int]val list1 = List(1,3,4,6,8,9)# 取集合中所有元素的和li ...
scala知识点（二）
Scala允许使用三个引号来进行多行字符引用:(引自) val longString = """Line 1 Line Line """; ...
Scala知识点汇总
Scala数组小结 1.定长数组定长数组:指长度不可变的数组Array.第一种方式:先声明一个数组,后初始化该数组: scala> val array = new Array[Double]( ...
Scala——面向对象和函数式编程语言
Scala Scala是一门运行时基于JVM的编程语言,具备函数式编程和面向对象特点. 基本知识 basics 任意词均可作为符号名,对于关键词,以反引号包裹,避免使用下划线,避免带美元符的名字. 声 ...
【Scala】关于集合的各种知识点
目录映射Map 不可变Map 概述操作实例可变Map 概述操作实例 Map的遍历 for循环遍历格式操作实例模式匹配遍历格式操作实例 Tuple 元祖概述定义格式获取元素方法 ...
scala的object知识点
1:object的中的代码,会在object对象被调用的时候执行且只会执行一次 object Demo{ println("gaoxing") def name = "n ...
Scala入门学习笔记四--List使用
前言本篇将介绍一个和Array很相似的集合List,更多内容请参考:Scala教程本篇知识点概括 List的构造 List与Array的区别 List的常用方法 List伴生对象的方法 ::和:: ...
Scala入门学习笔记三--数组使用
前言本篇主要讲Scala的Array.BufferArray.List,更多教程请参考:Scala教程本篇知识点概括若长度固定则使用Array,若长度可能有变化则使用ArrayBuffer 提 ...

随机推荐

PHP.11-PHP实例（二）-面向对象实例（图形计算器）
面向对象实例(图形计算器) [PHP语法详解] 1.实现外观 #不同的动作,输出不同的表单 ###关于PHP中,无法使用localhost访问.php文件[http://www.360doc.com/ ...
使用JS制作一个鼠标可拖的DIV（二）——限制区域移动
这次是要对上一篇的内容进行扩展. 由于需要对可拖动的 DIV 进行一个区域范围的限制,所以要给于一个容器,让可拖动的 DIV 元素不能逃出该容器的大小范围. 一.思路 1.在外层增加一个 DIV 容器 ...
jQuery插件面向对象开发
为什么要有面向对象的思维,因为如果不这样,你可能需要一个方法的时候就去定义一个function,当需要另外一个方法的时候,再去随便定义一个function,同样,需要一个变量的时候,毫无规则地定义一些 ...
MediaPlayer简单使用,绑定surfaceView实现播放视频的功能
转载自 Android MediaPlayer使用方法简单介绍播放音频 android中播放音频可以使用MediaPlayer类来实现,一下是它的一些方法: 方法名功能描述 setDataSour ...
linux的cron服务及应用
Linux下的Cron用于定时执行设置的周期性指令,是Linux的内置服务,可以用以下的方法启动.关闭这个服务: /sbin/service crond start //启动服务 /sbin/serv ...
CF Drazil and Factorial (打表)
Drazil and Factorial time limit per test 2 seconds memory limit per test 256 megabytes input standar ...
安装Oracle时选择桌面类和服务器类的区别
桌面类――这种安装方式一般适用于台式机和笔记本.它包含一个最小数据库和最低的配置需求. 服务器类――这种安装方式适用于服务器,例如,它会向您提供数据中心和用于支持企业级的应用程序.如果您需要使用高级 ...
模板引擎逻辑语句处理之对单层for循环的处理
先上代码 private function moldforExt(){//模板单层For循环处理 $SQL=$this->sql_obj; $URL=$this->url_obj; req ...
ubuntu共享文件夹给virtualbox
在ubuntu或者linuxmint等linux系统下安装了virtualbox,可以通过共享文件夹的方式,把文件夹共享给virtualbox下的虚拟机系统,我这里的虚拟机系统是win7,共享过程如下 ...
Spring(3.2.3) - Beans(12): 属性占位符
使用属性占位符可以将 Spring 配置文件中的部分元数据放在属性文件中设置,这样可以将相似的配置(如 JDBC 的参数配置)放在特定的属性文件中,如果只需要修改这部分配置,则无需修改 Spring ...

scala知识点（一）

scala知识点（一）的更多相关文章

随机推荐

热门专题