SparkContext和RDD
SparkContext.scala实现了一个SparkContext的class和object,SparkContext类似Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等。
在Spark框架下该类在一个JVM中只加载一次。在加载类的阶段,SparkContext类中定义的属性,代码块,函数均被加载。
(1)class SparkContext(config:SparkConf) extends Logging with ExecutoAllocationClient,类SparkContext的默认构造参数为SparkConf类型,SparkContext继承了Logging,以及ExecutoAllocationClient trait,多个trait继承采用了with连接,trait没有任何类参数,trait调用的方法是动态绑定的。
(2)private val creationSite:CallSite=Utils.getCallSite()
val startTime=Syatem.currentTimeMillis()
1.未加private的变量:使用val声明的字段,只有公有的getter方法(getter和setter分别表示为creationSite=和creationSite_=),
而使用var声明的字段,getter和setter方法都是公有的。
2.加private的变量:相对于的val和var声明的getter或setter方法变成私有的方法
(3):private[spark] val stopped:AtomicBoolean=new AtomicBoolean(false)
private[class_name]指定可以访问该字段的类,class_name必须是当前定义的类,或当前定义的类的外部类,会生成getter和setter方法。private[this]:只有同一个对象中可见,类私有基础之上的对象私有
(4):private def assertNotStopped():Unit --该方法为一个过程,因为返回值为Unit,同时为类的私有方法
(5):def this()=this (new SparkConf())主构造器 SparkContext类的构造器,默认参数为SparkConf类型的参数
def this(config:SparkConf,preferredNodeLocationData:Map[String,Set[SplitInfo]])的定义需要首先调用this(config)超方法
(6):private[spark] def this(master:String,appName:String)spark类的私有构造方法
(7) @volatile private var _dagScheduler:DAGScheduler=_
private var _applicationId:String=_
@volatile注释,通过编译器,被注释的变量将被多个线程使用,这些变量都将在类加载时被实例化
(8):在try{}catch{}代码块----其中的各种条件语句,属性的初始值,使用master创建taskSchedule等相应的参数
(9):private[spark] def withScope[U](body:=>U):U=RDDOperationScop.withScope[U](this)(body)
其中U代表类型,比如自定义的类或者scala固有的类,body指向operation,一段代码段,SparkContext类中多处使用该函数。
(10)):def newAPIHadoopFile[K, V, F <: NewInputFormat[K, V]](
path: String,
fClass:
Class[F],
kClass: Class[K],
vClass:
Class[V],
conf: Configuration = hadoopConfiguration):
RDD[(K, V)])
函数声明说明:调用newAPIHadoopFile[LongWritable,Text,TextInputFormat]("hdfs://ip:port/path/to/file")
path:待读取的文件;conf:hadoop配置文件;fclass:InputFormat输入的数据格式;kClass:输入格式的key的类型;vClass:输入格式的value的类型
(11):def sequenceFile[K, V]
(path: String,
minPartitions: Int =
defaultMinPartitions)
(implicit km:
ClassTag[K], vm: ClassTag[V],
kcf:
() => WritableConverter[K], vcf: () => WritableConverter[V]): RDD[(K,
V)])
该函数中有默认参数设定,以及一个隐式的转换,柯里化函数
(12):createTaskScheduler创建任务调度器
(13) :def stop() 关闭SparkContext;object SparkMasterRegex 用于模式匹配;类WritableFactory和object WritableFactory中包含了隐式工厂操作,implicit def
longWritableFactory:WritableFactory[Long] 隐式操作
RDD 抽象类abstract,extends Serializable with Logging
(1):final
标示的函数和属性均不可被覆写
(2):对于继承抽象类的子类对父类中的方法进行覆写时,需要加override标示
RDD抽象类被其他的RDD类,如HadoopRDD,继承,在子类中对父类的方法进行覆写,以适用于自身的各种RDD操作
排序,map,reduce操作等
Map是不可变集合,不可以增加减。
val person=Map("spark"->6,"Hadoop"->12)
这样定义是不可以增加减的
val person=scala.collection.mutable.Map("spark"->6,"Hadoop"->12)
这样可以增加元素,如:
person+=("file"->5)
也可以减元素,如:
person-=“file”
SparkContext和RDD的更多相关文章
- spark教程(四)-SparkContext 和 RDD 算子
SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点: 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 Spark ...
- Spark RDD持久化、广播变量和累加器
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内 ...
- SparkCore | Rdd| 广播变量和累加器
Spark中三大数据结构:RDD: 广播变量: 分布式只读共享变量: 累加器:分布式只写共享变量: 线程和进程之间 1.RDD中的函数传递 自己定义一些RDD的操作,那么此时需要主要的是,初始化工作 ...
- spark streaming之三 rdd,job的动态生成以及动态调度
前面一篇讲到了,DAG静态模板的生成.那么spark streaming会在每一个batch时间一到,就会根据DAG所形成的逻辑以及物理依赖链(dependencies)动态生成RDD以及由这些RDD ...
- Spark LR逻辑回归中RDD转DF中VectorUDT设置
System.setProperty("hadoop.home.dir", "C:\\hadoop-2.7.2"); val spark = SparkSess ...
- rdd 基本操作
package com.jason.example import org.apache.spark.rdd.RDD class RddTest extends SparkInstance { val ...
- spark 笔记 6: RDD
了解RDD之前,必读UCB的论文,个人认为这是最好的资料,没有之一. http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf A Re ...
- Spark RDD中Runtime流程解析
一.Runtime架构图 (1)从Spark Runtime的角度讲,包括五大核心对象:Master.Worker.Executor.Driver.CoarseGrainedExecutorBack ...
- 大数据学习day19-----spark02-------0 零碎知识点(分区,分区和分区器的区别) 1. RDD的使用(RDD的概念,特点,创建rdd的方式以及常见rdd的算子) 2.Spark中的一些重要概念
0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...
随机推荐
- cnblogs用户体验
在使用博客园的这段时间内,我们感觉有优点也有缺点,下面谈谈我们的看法: 1.是什么样的用户?有什么样的心理?对cnblogs的期望值是什么? 我们是学生用户,使用cnblogs主要是提交作业记录自己的 ...
- WebSocket学习
在HTML5规范中,我最喜欢的Web技术就是正迅速变得流行的WebSocket API.WebSocket提供了一个受欢迎的技术,以替代我们过去几年一直在用的Ajax技术.这个新的API提供了一个方法 ...
- elasticsearch查询之term,range,prefix
荒废了很久的博客园,现在又回来了.233333 最近在研究elasticsearch 日志查询: 1.term:代表完全匹配,即不进行分词器分析,文档中必须包含整个搜索的词汇 2.range:主要是对 ...
- 前端之JavaScript第二天学习(5)-JavaScript-语句
JavaScript 语句 JavaScript 语句向浏览器发出的命令.语句的作用是告诉浏览器该做什么. 下面的 JavaScript 语句向 id="demo" 的 HTML ...
- Codeforces Beta Round #80 (Div. 1 Only) D. Time to Raid Cowavans 离线+分块
题目链接: http://codeforces.com/contest/103/problem/D D. Time to Raid Cowavans time limit per test:4 sec ...
- 关于通过JS识别浏览器类型的方法
JS检测浏览器类型的方法 网络上一般采用navigator.userAgent判断浏览器标识的办法,但是有个麻烦的问题是IE11不断升级之后,IE11的userAgent变成: "Moz ...
- bzoj 3295 树套树
比较裸,可以有好多的优化,比如根本没有删除的点没有加在树套树中的必要,预处理 出来每个不会被删除的值可以减少不少时间,也可以写成树状数组套平衡树,都会快很多 /******************** ...
- 【BZOJ】【2500】幸福的道路
树形DP+单调队列优化DP 好题(也是神题……玛雅我实在是太弱了TAT,真是一个250) 完全是抄的zyf的……orz我还是退OI保平安吧 第一步对于每一天求出一个从第 i 个点出发走出去的最长链的长 ...
- frequentism-and-bayesianism-chs-iv
frequentism-and-bayesianism-chs-iv 频率主义与贝叶斯主义 IV:Python的贝叶斯工具 这个notebook出自Pythonic Perambulations的 ...
- .NET设计模式(6):原型模式(Prototype Pattern)(转)
概述 在软件系统中,有时候面临的产品类是动态变化的,而且这个产品类具有一定的等级结构.这时如果用工厂模式,则与产品类等级结构平行的工厂方法类也要随着这种变化而变化,显然不大合适.那么如何封装这种动态的 ...