1.spark核心RDD特点

RDD(Resilient Distributed Dataset)

Spark源码：https://github.com/apache/spark

abstract class RDD[T: ClassTag](

@transient private var _sc: SparkContext,

@transient private var deps: Seq[Dependency[_]]

) extends Serializable with Logging

1.RDD是一个抽象类（不能直接使用，子类实现抽象方法后才能用）

2.带泛型的，可以支持多种类型：String、Person、User

RDD:Resilient Distributed Dataset 弹性分布式数据集

Represents an immutable,(不可变)

partitioned collection of elements （分区）

that can be operated on in parallel （并行计算）

Internally, each RDD is characterized by five main properties:

* - A list of partitions

* - A function for computing each split

* - A list of dependencies on other RDDs

rdd1=>rdd2=>rdd3

* - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

* - Optionally, a list of preferred locations to compute each split on (e.g. block locations for

* an HDFS file) 数据在哪优先把作业调度到数据所在结点计算：移动数据不如移动计算

五大特性源码体现：

def compute(split: Partition, context: TaskContext): Iterator[T] 特性二

protected def getPartitions: Array[Partition] 特性一

protected def getDependencies: Seq[Dependency[_]] = deps 特性三

protected def getPreferredLocations(split: Partition): Seq[String] = Nil 特性五

val partitioner: Option[Partitioner] = None 特性四

1.spark核心RDD特点的更多相关文章

Spark核心—RDD初探
本文目的最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken).感觉需要记录点什么,才对得起自己.下面的内容主要是关于Spark核心-RDD的相关 ...
Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
1:什么是Spark的RDD??? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行 ...
Spark核心——RDD
Spark中最核心的概念为RDD(Resilient Distributed DataSets)中文为:弹性分布式数据集,RDD为对分布式内存对象的抽象它表示一个被分区不可变且能并行操作的数据集:R ...
Spark核心RDD：combineByKey函数详解
https://blog.csdn.net/jiangpeng59/article/details/52538254 为什么单独讲解combineByKey? 因为combineByKey是Spark ...
Spark的核心RDD（Resilient Distributed Datasets弹性分布式数据集）
Spark的核心RDD (Resilient Distributed Datasets弹性分布式数据集) 原文链接:http://www.cnblogs.com/yjd_hycf_space/p/7 ...
Spark之RDD容错原理及四大核心要点
一.Spark RDD容错原理 RDD不同的依赖关系导致Spark对不同的依赖关系有不同的处理方式. 对于宽依赖而言,由于宽依赖实质是指父RDD的一个分区会对应一个子RDD的多个分区,在此情况下出现部 ...
spark系列-2、Spark 核心数据结构：弹性分布式数据集 RDD
一.RDD(弹性分布式数据集) RDD 是 Spark 最核心的数据结构,RDD(Resilient Distributed Dataset)全称为弹性分布式数据集,是 Spark 对数据的核心抽象, ...
[Spark] Spark的RDD编程
本篇博客中的操作都在 ./bin/pyspark 中执行. RDD,即弹性分布式数据集(Resilient Distributed Dataset),是Spark对数据的核心抽象.RDD是分布式元素的 ...
关于Spark中RDD的设计的一些分析
RDD, Resilient Distributed Dataset,弹性分布式数据集, 是Spark的核心概念. 对于RDD的原理性的知识,可以参阅Resilient Distributed Dat ...

随机推荐

笨办法学Python记录--习题12-14 主要是pydoc用法，raw_input,argv
20140413 -- 习题12 - 14 1. pydoc在windows的用法,必须进入到python安装目录,执行Python -m pydoc raw_input; 网上给出了一个好玩的,不过 ...
Xcode输出中文
重写NSArray和NSDictionary分类Category就OK了! 导入头文件 #import <objc/runtime.h> + (void)load { static dis ...
JVM内核-原理、诊断与优化学习笔记（四）：GC算法与种类
文章目录 GC的概念 GC算法引用计数法引用计数法的问题标记清除标记压缩小问题复制算法复制算法的最大问题是:空间浪费整合标记清理思想 -XX:+PrintGCDetails的输出 gc ...
Oracle 生成sys_guid
select sys_guid() from dual;select sys_guid() from dual connect by rownum<100
SPI 通信
Frm: http://www.wzaobao.com/p/l5079K.html http://blog.csdn.net/xqmoo8/article/details/8043474 http:/ ...
HDU-1850-Being a Good Boy in Spring Festival-nim博弈
一年在外父母时刻牵挂春节回家你能做几天好孩子吗寒假里尝试做做下面的事情吧陪妈妈逛一次菜场悄悄给爸爸买个小礼物主动地强烈地要求洗一次碗某一天早起给爸妈用心地做回早餐如果愿意你还可以和爸妈 ...
解决jqGrid中，当前页一直显示为0的问题
项目中,经常会见到使用 jqGrid 进行一些数据的列表展示,而且使用起来也比较方便.但是有时会遇到一些奇怪的问题,比如前几天我就遇到了在使用 jqGrid 时,当前页一直显示为 0 的问题.下图就是 ...
《DSP using MATLAB》Problem 8.43
代码: %% ------------------------------------------------------------------------ %% Output Info about ...
sklearn数据集划分
sklearn数据集划分方法有如下方法: KFold,GroupKFold,StratifiedKFold,LeaveOneGroupOut,LeavePGroupsOut,LeaveOneOut,L ...
USACO2004 cube stacking /// 带权并查集 oj1302
题目大意: 以N ( 1 ≤ N ≤ 30,000 )个堆栈开始,每个堆栈包含一个单独的立方体.执行P(1≤ P ≤100,000)的操作. 有两种类型的操作:移动和计数. *在移动操作中,将包含方 ...

1.spark核心RDD特点

1.spark核心RDD特点的更多相关文章

随机推荐

热门专题