SparkContext和RDD

SparkContext.scala实现了一个SparkContext的class和object,SparkContext类似Spark的入口，负责连接Spark集群，创建RDD,累积量和广播量等。

在Spark框架下该类在一个JVM中只加载一次。在加载类的阶段，SparkContext类中定义的属性，代码块，函数均被加载。

（1）class SparkContext(config:SparkConf) extends Logging with ExecutoAllocationClient,类SparkContext的默认构造参数为SparkConf类型，SparkContext继承了Logging,以及ExecutoAllocationClient trait，多个trait继承采用了with连接，trait没有任何类参数，trait调用的方法是动态绑定的。

（2）private val creationSite:CallSite=Utils.getCallSite()

val startTime=Syatem.currentTimeMillis()

1.未加private的变量：使用val声明的字段，只有公有的getter方法（getter和setter分别表示为creationSite=和creationSite_=），

而使用var声明的字段，getter和setter方法都是公有的。

2.加private的变量：相对于的val和var声明的getter或setter方法变成私有的方法

（3）：private[spark] val stopped:AtomicBoolean=new AtomicBoolean(false)

private[class_name]指定可以访问该字段的类，class_name必须是当前定义的类，或当前定义的类的外部类，会生成getter和setter方法。private[this]:只有同一个对象中可见，类私有基础之上的对象私有

（4）：private def assertNotStopped():Unit --该方法为一个过程，因为返回值为Unit，同时为类的私有方法

(5)：def this()=this (new SparkConf())主构造器 SparkContext类的构造器，默认参数为SparkConf类型的参数

def this(config:SparkConf,preferredNodeLocationData:Map[String,Set[SplitInfo]])的定义需要首先调用this（config）超方法

（6）：private[spark] def this(master:String,appName:String)spark类的私有构造方法

（7） @volatile private var _dagScheduler:DAGScheduler=_

private var _applicationId:String=_

@volatile注释，通过编译器，被注释的变量将被多个线程使用，这些变量都将在类加载时被实例化

（8）：在try{}catch{}代码块----其中的各种条件语句，属性的初始值，使用master创建taskSchedule等相应的参数

（9）：private[spark] def withScope[U](body:=>U):U=RDDOperationScop.withScope[U](this)(body)

其中U代表类型，比如自定义的类或者scala固有的类，body指向operation，一段代码段，SparkContext类中多处使用该函数。

（10））：def newAPIHadoopFile[K, V, F <: NewInputFormat[K, V]](
    path: String,
    fClass:
Class[F],
    kClass: Class[K],
    vClass:
Class[V],
    conf: Configuration = hadoopConfiguration):
RDD[(K, V)]）

函数声明说明：调用newAPIHadoopFile[LongWritable,Text,TextInputFormat]("hdfs://ip:port/path/to/file")

path:待读取的文件；conf：hadoop配置文件；fclass：InputFormat输入的数据格式；kClass:输入格式的key的类型；vClass：输入格式的value的类型

（11）：def sequenceFile[K, V]
       (path: String,
minPartitions: Int =
defaultMinPartitions)
       (implicit km:
ClassTag[K], vm: ClassTag[V],
        kcf:
() => WritableConverter[K], vcf: () => WritableConverter[V]): RDD[(K,
V)])
该函数中有默认参数设定，以及一个隐式的转换,柯里化函数

（12)：createTaskScheduler创建任务调度器

(13) ：def stop() 关闭SparkContext;object SparkMasterRegex 用于模式匹配;类WritableFactory和object WritableFactory中包含了隐式工厂操作,implicit def
longWritableFactory:WritableFactory[Long] 隐式操作

RDD 抽象类abstract，extends Serializable with Logging
（1）：final
标示的函数和属性均不可被覆写
（2）：对于继承抽象类的子类对父类中的方法进行覆写时，需要加override标示
RDD抽象类被其他的RDD类，如HadoopRDD，继承，在子类中对父类的方法进行覆写，以适用于自身的各种RDD操作
排序，map，reduce操作等

Map是不可变集合，不可以增加减。

val person=Map("spark"->6,"Hadoop"->12)

这样定义是不可以增加减的

val person=scala.collection.mutable.Map("spark"->6,"Hadoop"->12)

这样可以增加元素，如：

person+=("file"->5)

也可以减元素，如：

person-=“file”

SparkContext和RDD的更多相关文章

spark教程(四)-SparkContext 和 RDD 算子
SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点: 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 Spark ...
Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
SparkCore | Rdd| 广播变量和累加器
Spark中三大数据结构:RDD: 广播变量: 分布式只读共享变量: 累加器:分布式只写共享变量: 线程和进程之间 1.RDD中的函数传递自己定义一些RDD的操作,那么此时需要主要的是,初始化工作 ...
spark streaming之三 rdd,job的动态生成以及动态调度
前面一篇讲到了,DAG静态模板的生成.那么spark streaming会在每一个batch时间一到,就会根据DAG所形成的逻辑以及物理依赖链(dependencies)动态生成RDD以及由这些RDD ...
Spark LR逻辑回归中RDD转DF中VectorUDT设置
System.setProperty("hadoop.home.dir", "C:\\hadoop-2.7.2"); val spark = SparkSess ...
rdd 基本操作
package com.jason.example import org.apache.spark.rdd.RDD class RddTest extends SparkInstance { val ...
spark 笔记 6: RDD
了解RDD之前,必读UCB的论文,个人认为这是最好的资料,没有之一. http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf A Re ...
Spark RDD中Runtime流程解析
一.Runtime架构图 (1)从Spark Runtime的角度讲,包括五大核心对象:Master.Worker.Executor.Driver.CoarseGrainedExecutorBack ...
大数据学习day19-----spark02-------0 零碎知识点（分区，分区和分区器的区别） 1. RDD的使用（RDD的概念，特点，创建rdd的方式以及常见rdd的算子） 2.Spark中的一些重要概念
0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...

随机推荐

Oracle VM VirtualBox 5.0 CentOS 6.4 共享文件夹
首先在主机(win7)的硬盘建立需要共享文件夹例如 D:\share_test 然后虚拟机光驱加载Oracle VM VirtualBox安装目录的iso C:\Program Files\Ora ...
UML 用例图，时序图，活动图的定义以及区别
1.用例图,时序图,活动图的定义 1.用例图: 用例图描述了系统提供的一个功能单元.用例图的主要目的是帮助开发团队以一种可视化的方式理解系统的功能需求,包括基于基本流程的"角色" ...
poj 1985 Cow Marathon 树的直径
题目链接:http://poj.org/problem?id=1985 After hearing about the epidemic of obesity in the USA, Farmer J ...
js的全局函数
JS的全局函数,全局函数和window对象的函数不一样. 全局函数不属于任何一个内置对象. JS包含以下7个全局函数,用于一些常用的功能: escape(),unescape(); //编码,解码. ...
JavaScript之With语句讲解
有了With 语句,在存取对象属性和方法时就不用重复指定参考对象,在 With 语句块中,凡是 JavaScript 不识别的属性和方法都和该语句块指定的对象有关.With 语句的语法格式如下所示:W ...
.NET设计模式（17）：命令模式（Command Pattern）（转）
概述在软件系统中,“行为请求者”与“行为实现者”通常呈现一种“紧耦合”.但在某些场合,比如要对行为进行“记录.撤销/重做.事务”等处理,这种无法抵御变化的紧耦合是不合适的.在这种情况下,如何将“行为 ...
linux yum 命令详解
linux yum命令详解 yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及SUSE中的Shell前端软件包管理器.基於RPM包管理,能 ...
mysql SQLyog导入导出csv文件
1.选择数据库表 --> 右击属性 --> 备份/导出 --> 导出表数据作为 --> 选择cvs --> 选择下面的“更改” --> 字段 --> 变量长度 ...
MEAN实践——LAMP的新时代替代方案（下）
在本系列文章的第一部分旨在介绍一些应用程序的基础技术细节和如何进行数据建模,而这个部分文章将着手建立验证应用程序行为的测试,并会指出如何启动和运行应用程序. 首先,编写测试首先定义一些小型配置库.文 ...
String Reduction
问题出自这里问题描述: Given a string consisting of a,b and c's, we can perform the following operation: Take ...

SparkContext和RDD

SparkContext和RDD的更多相关文章

随机推荐

热门专题