SparkContext和RDD

【SparkContext和RDD】的更多相关文章

SparkContext.scala实现了一个SparkContext的class和object,SparkContext类似Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等. 在Spark框架下该类在一个JVM中只加载一次.在加载类的阶段,SparkContext类中定义的属性,代码块,函数均被加载. (1)class SparkContext(config:SparkConf) extends Logging with ExecutoAllocationClient,类…

spark教程(四)-SparkContext 和 RDD 算子

SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点: 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个: 利用 SparkContext 实例创建的对象都是 RDD,这是相对于 SparkSession 说的,因为它创建的对象都是 DataFrame: 创建 sc class SparkContext(__builtin__.object): def __i…

Spark RDD持久化、广播变量和累加器

Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中.当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition.这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD. 巧妙使用RDD持久化,甚至在某些场景下,可以将spark应用程序的性能提升10倍.对于迭…

SparkCore | Rdd| 广播变量和累加器

Spark中三大数据结构:RDD: 广播变量: 分布式只读共享变量: 累加器:分布式只写共享变量: 线程和进程之间 1.RDD中的函数传递自己定义一些RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的. 传递一个方法 class Search(query: String){ // extends Serializable //过滤出包含字符串的数据 def isMatch(s: Strin…

spark streaming之三 rdd,job的动态生成以及动态调度

前面一篇讲到了,DAG静态模板的生成.那么spark streaming会在每一个batch时间一到,就会根据DAG所形成的逻辑以及物理依赖链(dependencies)动态生成RDD以及由这些RDD组成的job,并形成一个job集合提交到集群当中执行.那么下面我们具体分析这三个步骤. 首先从JobScheduler讲起.在本节所需要了解的是JobScheduler的两个重要对象.jobExecutor与JobHandler.jobExecutor是一个名为streaming-job-execu…

Spark LR逻辑回归中RDD转DF中VectorUDT设置

System.setProperty("hadoop.home.dir", "C:\\hadoop-2.7.2"); val spark = SparkSession.builder().config(new SparkConf().setAppName("LR").setMaster("local[*]")).config("spark.sql.warehouse.dir", "file:///…

rdd 基本操作

package com.jason.example import org.apache.spark.rdd.RDD class RddTest extends SparkInstance { val sc = spark.sparkContext val rdd = sc.parallelize( to ) val rdd2 = sc.parallelize( to ) val pairRdd = rdd2.map(x => (x, x * )) def trans(): Unit = { pr…

spark 笔记 6: RDD

了解RDD之前,必读UCB的论文,个人认为这是最好的资料,没有之一. http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,* partitioned collection of elements that can be operated o…

Spark RDD中Runtime流程解析

一.Runtime架构图 (1)从Spark Runtime的角度讲,包括五大核心对象:Master.Worker.Executor.Driver.CoarseGrainedExecutorBackend. (2)Spark在做分布式集群系统设计的时候:最大化功能独立.模块化封装具体独立的对象.强内聚松耦合.Spark运行架构图如下图所示. (3)当Driver中的SparkContext初始化时会提交程序给Master,Master如果接受该程序在Spark中运行,就会为当前的程序分配App…

大数据学习day19-----spark02-------0 零碎知识点（分区，分区和分区器的区别） 1. RDD的使用（RDD的概念，特点，创建rdd的方式以及常见rdd的算子） 2.Spark中的一些重要概念

0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间看HaDoopRDD这个方法的源码,用来计算分区数量的) 物理切片:实际将数据切分开,即以前的将数据分块(每个数据块的存储地址不一样),hdfs中每个分块的大小为128m 逻辑切片:指的是读取数据的时候,将一个数据逻辑上分成多块(这个数据在地址上并没有分开),即以偏移量的形式划分(各个Task从某个…