SparkContext.scala实现了一个SparkContext的class和object,SparkContext类似Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等。

在Spark框架下该类在一个JVM中只加载一次。在加载类的阶段,SparkContext类中定义的属性,代码块,函数均被加载。

(1)class SparkContext(config:SparkConf) extends Logging with ExecutoAllocationClient,类SparkContext的默认构造参数为SparkConf类型,SparkContext继承了Logging,以及ExecutoAllocationClient trait,多个trait继承采用了with连接,trait没有任何类参数,trait调用的方法是动态绑定的。

(2)private val creationSite:CallSite=Utils.getCallSite()

val startTime=Syatem.currentTimeMillis()

1.未加private的变量:使用val声明的字段,只有公有的getter方法(getter和setter分别表示为creationSite=和creationSite_=),

而使用var声明的字段,getter和setter方法都是公有的。

2.加private的变量:相对于的val和var声明的getter或setter方法变成私有的方法

(3):private[spark] val stopped:AtomicBoolean=new AtomicBoolean(false)

private[class_name]指定可以访问该字段的类,class_name必须是当前定义的类,或当前定义的类的外部类,会生成getter和setter方法。private[this]:只有同一个对象中可见,类私有基础之上的对象私有

(4):private def assertNotStopped():Unit  --该方法为一个过程,因为返回值为Unit,同时为类的私有方法

(5):def this()=this (new SparkConf())主构造器   SparkContext类的构造器,默认参数为SparkConf类型的参数

def this(config:SparkConf,preferredNodeLocationData:Map[String,Set[SplitInfo]])的定义需要首先调用this(config)超方法

(6):private[spark] def this(master:String,appName:String)spark类的私有构造方法

(7) @volatile private var _dagScheduler:DAGScheduler=_

private var _applicationId:String=_

@volatile注释,通过编译器,被注释的变量将被多个线程使用,这些变量都将在类加载时被实例化

(8):在try{}catch{}代码块----其中的各种条件语句,属性的初始值,使用master创建taskSchedule等相应的参数

(9):private[spark] def withScope[U](body:=>U):U=RDDOperationScop.withScope[U](this)(body)

其中U代表类型,比如自定义的类或者scala固有的类,body指向operation,一段代码段,SparkContext类中多处使用该函数。

(10)):def newAPIHadoopFile[K, V, F <: NewInputFormat[K, V]](
    path: String,
    fClass:
Class[F],
    kClass: Class[K],
    vClass:
Class[V],
    conf: Configuration = hadoopConfiguration):
RDD[(K, V)])

函数声明说明:调用newAPIHadoopFile[LongWritable,Text,TextInputFormat]("hdfs://ip:port/path/to/file")

path:待读取的文件;conf:hadoop配置文件;fclass:InputFormat输入的数据格式;kClass:输入格式的key的类型;vClass:输入格式的value的类型

(11):def sequenceFile[K, V]
       (path: String,
minPartitions: Int =
defaultMinPartitions)
       (implicit km:
ClassTag[K], vm: ClassTag[V],
        kcf:
() => WritableConverter[K], vcf: () => WritableConverter[V]): RDD[(K,
V)])
该函数中有默认参数设定,以及一个隐式的转换,柯里化函数

(12):createTaskScheduler创建任务调度器

(13) :def stop() 关闭SparkContext;object SparkMasterRegex 用于模式匹配;类WritableFactory和object WritableFactory中包含了隐式工厂操作,implicit def
longWritableFactory:WritableFactory[Long] 隐式操作

RDD 抽象类abstract,extends Serializable with Logging
(1):final
标示的函数和属性均不可被覆写
(2):对于继承抽象类的子类对父类中的方法进行覆写时,需要加override标示
RDD抽象类被其他的RDD类,如HadoopRDD,继承,在子类中对父类的方法进行覆写,以适用于自身的各种RDD操作
排序,map,reduce操作等

Map是不可变集合,不可以增加减。

val person=Map("spark"->6,"Hadoop"->12)

这样定义是不可以增加减的

val person=scala.collection.mutable.Map("spark"->6,"Hadoop"->12)

这样可以增加元素,如:

person+=("file"->5)

也可以减元素,如:

person-=“file”

SparkContext和RDD的更多相关文章

  1. spark教程(四)-SparkContext 和 RDD 算子

    SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点: 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 Spark ...

  2. Spark RDD持久化、广播变量和累加器

    Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...

  3. SparkCore | Rdd| 广播变量和累加器

    Spark中三大数据结构:RDD:  广播变量: 分布式只读共享变量: 累加器:分布式只写共享变量: 线程和进程之间 1.RDD中的函数传递 自己定义一些RDD的操作,那么此时需要主要的是,初始化工作 ...

  4. spark streaming之三 rdd,job的动态生成以及动态调度

    前面一篇讲到了,DAG静态模板的生成.那么spark streaming会在每一个batch时间一到,就会根据DAG所形成的逻辑以及物理依赖链(dependencies)动态生成RDD以及由这些RDD ...

  5. Spark LR逻辑回归中RDD转DF中VectorUDT设置

    System.setProperty("hadoop.home.dir", "C:\\hadoop-2.7.2"); val spark = SparkSess ...

  6. rdd 基本操作

    package com.jason.example import org.apache.spark.rdd.RDD class RddTest extends SparkInstance { val ...

  7. spark 笔记 6: RDD

    了解RDD之前,必读UCB的论文,个人认为这是最好的资料,没有之一. http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf A Re ...

  8. Spark RDD中Runtime流程解析

    一.Runtime架构图 (1)从Spark  Runtime的角度讲,包括五大核心对象:Master.Worker.Executor.Driver.CoarseGrainedExecutorBack ...

  9. 大数据学习day19-----spark02-------0 零碎知识点(分区,分区和分区器的区别) 1. RDD的使用(RDD的概念,特点,创建rdd的方式以及常见rdd的算子) 2.Spark中的一些重要概念

    0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...

随机推荐

  1. SQL Server性能优化(3)使用SQL Server Profiler查询性能瓶颈

    关于SQL Server Profiler的使用,网上已经有很多教程,比如这一篇文章:SQL Server Profiler:使用方法和指标说明.微软官方文档:https://msdn.microso ...

  2. android 自动化压力测试-monkey 1 实践

    Monkey是Android中的一个命令行工具,可以运行在模拟器里或实际设备中.它向系统发送伪随机的用户事件流(如按键输入.触摸屏输入.手势输入等),实现对正在开发的应用程序进行压力测试.Monkey ...

  3. C++ Templates基本知识

    一.使用Templates的原因:例如我们要写一个算法,由于类型不同,我们不得不做一下工作.1.使用宏定义代替Templates不利于类型检查. 2.将一些算法放在基类里,以后的扩展的子类都需要充基类 ...

  4. 【BZOJ】【3210】花神的浇花集会

    曼哈顿距离与切比雪夫距离 QAQ蒟蒻并不知道切比雪夫距离是什么……并不会做这道题…… 去膜拜了PoPoQQQ大爷的题解: 题目大意:给定平面上的n个点,求一个点到这n个点的切比雪夫距离之和最小 与31 ...

  5. 在eclipse中配置maven

    http://pansanday.blog.163.com/blog/static/381662802012727103454743/ 从eclipse 3.6开始,eclipse有一个marketp ...

  6. 导入ApiDemo报错,找不到R文件

    1.先检查当前ApiDemo对应的SDK版本是否一致(项目右键-Properties-Android) 2.查看是什么错误.我的就是layout中的progressbar_2.xml中所有组件的id前 ...

  7. DSP中常用的C语言关键字

    const Ø使用:const 数据类型 变量名: Ø作用:优化存储器的分配,表示变量的内容是常数,不会改变. Ø举例:const char tab[1024]={显示数据}; volatile(易变 ...

  8. MYSQL注入天书之服务器(两层)架构

    Background-6 服务器(两层)架构 首先介绍一下29,30,31这三关的基本情况: 服务器端有两个部分:第一部分为tomcat为引擎的jsp型服务器,第二部分为apache为引擎的php服务 ...

  9. 翻译 - 元编程动态方法之public_send

    李哲 - MAY 20, 2015 原文地址:Metaprogramming Dynamic Methods: Using Public_send 作者:Friends of The Web的开发者V ...

  10. jquery mobile的学习资料

    磨刀不误砍柴工!想要学的快就得有好的资源.jquery mobile只是jquery的一个插件,所以相对简单易学.只要有jquery的基础就好.如果想修改东西的话,那么需要的知识就相对较多了. 书 & ...