走近RDD

　　RDD（Resilient Distributed Datasets）弹性分布式数据集。RDD可以看成是一个简单的"数组"，对其进行操作也只需要调用有限的"数组"中的方法即可,但它与一般数组的区别在于:RDD是分布式存储，可以跟好的利用现有的云数据平台，并在内存中进行。此处的弹性指的是数据的存储方式，及数据在节点中进行存储的时候，既可以使用内存也可以使用磁盘。此外，RDD还具有很强的容错性，在spark运行计算的过程中，不会因为某个节点错误而使得整个任务失败；不通节点中并发运行的数据，如果在某个节点发生错误时，RDD会自动将其在不同的节点中重试。

　　RDD一大特性是延迟计算，即一个完整的RDD运行任务被分成2部分：Transformation和Action。

　　Transformation用于对RDD的创建。在spark中，RDD只能使用Transformation来创建，同时Transformation还提供了大量的操作方法。RDD还可以利用Transformation来生成新的RDD,这样可以在有限的内存空间中生成竟可能多的数据对象。无论发生了多少次Transformation，此时，在RDD中真正数据计算运行的操作Action都没真正的开始运行。

　　Action是数据的执行部分，其也提供了大量的方法去执行数据的计算操作部分。

　　RDD可以将其看成一个分布在不同节点中的分布式数据集，并将数据以数据块(Block)的形式存储在各个节点的计算机中。每个BlockMaster管理着若干个BlockSlave，而每个BlockSlave又管理着若干个BlockNode。当BlockSlave获得了每个Node节点的地址，又会反向向BlockMaster注册每个Node的基本信息，这样就形成了分层管理。

　　RDD依赖

　　窄依赖 (narrowdependencies) 和宽依赖 (widedependencies) 。窄依赖是指父 RDD 的每个分区都只被子 RDD 的一个分区所使用，例如map、filter。相应的，那么宽依赖就是指父 RDD 的分区被多个子 RDD 的分区所依赖，例如groupByKey、reduceByKey等操作。如果父RDD的一个Partition被一个子RDD的Partition所使用就是窄依赖，否则的话就是宽依赖。

　　这种划分有两个用处。首先，窄依赖支持在一个结点上管道化执行。例如基于一对一的关系，可以在 filter 之后执行 map 。其次，窄依赖支持更高效的故障还原。因为对于窄依赖，只有丢失的父 RDD 的分区需要重新计算。而对于宽依赖，一个结点的故障可能导致来自所有父 RDD 的分区丢失，因此就需要完全重新执行。因此对于宽依赖，Spark 会在持有各个父分区的结点上，将中间数据持久化来简化故障还原，就像 MapReduce 会持久化 map 的输出一样。对于join操作有两种情况，如果join操作的使用每个partition仅仅和已知的Partition进行join，此时的join操作就是窄依赖；其他情况的join操作就是宽依赖；因为是确定的Partition数量的依赖关系，所以就是窄依赖，得出一个推论，窄依赖不仅包含一对一的窄依赖，还包含一对固定个数的窄依赖（也就是说对父RDD的依赖的Partition的数量不会随着RDD数据规模的改变而改变）

　　下面就是RDD API

　　1、parallelize

　　def parallelize[T](seq : scala.Seq[T], numSlices : scala.Int = { /* compiled code */ }) //第一个参数是数据，同时还有一个带有默认数值的参数，改参数为1，该参数表示的是将数据分布在多少个数据节点中存放。

　　2、aggregate

　　def aggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp : scala.Function2[U, U, U]) //seqOp 是给定的计算方法，combOp 是合并方法，将第一个计算方法得出的结果与源码中的zeroValue进行合并。实例：

import org.apache.spark.{SparkConf, SparkContext}

object test {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local").setAppName("test")

    val sc=new SparkContext(conf)

    val arr=sc.parallelize(Array(,,,,,,,))//parallelize将内存数据读入Spark系统中，作为整体数据集

    val result=arr.aggregate()(math.max(_,_),_+_)//_+_ 对传递的第一个方法的结果集进行进一步处理

    println(result)

  }

}

结果为8

import org.apache.spark.{SparkConf, SparkContext}

object test {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local").setAppName("test")

    val sc=new SparkContext(conf)

    val arr=sc.parallelize(Array("abd","hello world","hello sb"))//parallelize将内存数据读入Spark系统中，作为整体数据集

    val result=arr.aggregate("")((value,word)=>value+word,_+_)//_+_ 对传递的第一个方法的结果集进行进一步处理

    println(result)

  }

}

结果为abdhello worldhello sb

　　3、cache是将数据内容计算并保存在计算节点的内存中

　　4、cartesion是用于对不同的数组进行笛卡尔操作，要求是数组的长度必须相同

import org.apache.spark.{SparkConf, SparkContext}

object test {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local").setAppName("test")

    val sc=new SparkContext(conf)

    val arr1=sc.parallelize(Array(,,,))//parallelize将内存数据读入Spark系统中，作为整体数据集

    val arr2=sc.parallelize(Array(,,,))

    val res=arr1.cartesian(arr2)

    res.foreach(print)

  }

}

结果：(1,4)(1,3)(1,2)(1,1)(2,4)(2,3)(2,2)(2,1)(3,4)(3,3)(3,2)(3,1)(4,4)(4,3)(4,2)(4,1)

　　5、Coalesce是将已经存储的数据重新分片后再进行存储(repartition与Coalesce类似)

import org.apache.spark.{SparkConf, SparkContext}

object test {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local").setAppName("test")

    val sc=new SparkContext(conf)

    val arr1=sc.parallelize(Array(,,,,,))//parallelize将内存数据读入Spark系统中，作为整体数据集

    val arr2=arr1.coalesce(,true)

    val res1=arr1.aggregate()(math.max(_,_),_+_)

    println(res1)

    val res2=arr2.aggregate()(math.max(_,_),_+_)

    println(res2)

  }

}

结果为6 11

　　6、countByValue是计算数据集中某个数据出现的个数，并将其以map的形式返回

　　7、countByKey是计算数据集中元数据键值对key出现的个数

import org.apache.spark.{SparkConf, SparkContext}

object test {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local").setAppName("test")

    val sc=new SparkContext(conf)

    val arr1=sc.parallelize(Array((,"a"),(,'b'),(,'c'),(,'d'),(,'a')))//parallelize将内存数据读入Spark系统中，作为整体数据集

    val res1=arr1.countByValue()

    res1.foreach(println)

    val res2=arr1.countByKey()

    res2.foreach(println)

  }

}

//结果：((1,c),1)

((,a),)

((,a),)

((,d),)

((,b),)

(,)

(,)

　　8、filter是对数据集进行过滤

　　9、flatMap是对RDD中的数据进行整体操作的一个特殊方法，其在定义时就是针对数据集进行操作

　　10、map可以对RDD中的数据集进行逐个操作，其与flatmap不同得是，flatmap是将数据集中的数据作为一个整体去处理，之后再对其中的数据做计算，而map则直接对数据集中的数据做单独的处理

　　11、groupBy是将传入的数据进行分组

　　12、keyBy是为数据集中的每个个体数据添加一个key，从而形成键值对

　　13、reduce同时对2个数据进行处理，主要是对传入的数据进行合并处理

　　14、sortBy是对已有的RDD进行重新排序

import org.apache.spark.{SparkConf, SparkContext}

object test {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setMaster("local").setAppName("test")

    val sc=new SparkContext(conf)

    val arr1=sc.parallelize(Array((,"a"),(,"c"),(,"b"),(,"x"),(,"f")))//parallelize将内存数据读入Spark系统中，作为整体数据集

    val res1=arr1.sortBy(word=>word._1,true)

    val res2=arr1.sortBy(word=>word._2,true)

    res1.foreach(println)

    res2.foreach(println)

  }

}

　　15、zip可以将若干个RDD压缩成一个新的RDD

走近RDD的更多相关文章

Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...
Spark笔记：复杂RDD的API的理解（下）
本篇接着谈谈那些稍微复杂的API. 1) flatMapValues:针对Pair RDD中的每个值应用一个返回迭代器的函数,然后对返回的每个元素都生成一个对应原键的键值对记录这个方法我最开始接 ...
Spark笔记：复杂RDD的API的理解（上）
本篇接着讲解RDD的API,讲解那些不是很容易理解的API,同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用,最后通过对RDD的API深入学习,我们还讲讲一些和RDD开发相关的scala ...
Spark笔记：RDD基本操作（下）
上一篇里我提到可以把RDD当作一个数组,这样我们在学习spark的API时候很多问题就能很好理解了.上篇文章里的API也都是基于RDD是数组的数据模型而进行操作的. Spark是一个计算框架,是对ma ...
Spark笔记：RDD基本操作（上）
本文主要是讲解spark里RDD的基础操作.RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家可以就把RDD当 ...
Spark核心——RDD
Spark中最核心的概念为RDD(Resilient Distributed DataSets)中文为:弹性分布式数据集,RDD为对分布式内存对象的抽象它表示一个被分区不可变且能并行操作的数据集:R ...
【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令
<Learning Spark>这本书算是Spark入门的必读书了,中文版是<Spark快速大数据分析>,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足 ...
Spark Rdd coalesce()方法和repartition()方法
在Spark的Rdd中,Rdd是分区的. 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多,但是每个Rdd的数据量比较小,需要设置一个比较合理的分区.或者需要把Rdd的分区数量 ...
RDD/Dataset/DataFrame互转
1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Datase ...

随机推荐

ASP.NET前台table通过Ajax获取绑定后台查询的json数据
上一篇<ASP.NET前台html页面AJAX提交数据后台ashx页面接收数据>写了前台提交数据后台保存到数据库,数据处理以后用户肯定要查询.接下来就写一个前台table通过ajax J ...
【Lab】Python改bat文件
[Lab]Python改bat文件给出一个特定的树形结构,每一层的数字依次递增后,按照从上到下,同时从左到右这样的顺序生成.这么说还是不太明白,比如下面这个简单的树形结构. 按照顺序应该写成这样[3 ...
3. leetcode 463 Island Perimeter
思路:设原始周长为4*节点数,每当出现一次相邻的情况,原始周长会减2.
利用dbutils工具实现数据的增删查改操作(dbutis入门)
一.前期准备 1.安装数据库(如:mysql5.5) 2.安装Eclipse(如:3.4) 3.下载数据库驱动包 4.下载dbutis工具包 5.在Eclipse创建名为 dbutils 的工程并在工 ...
Open-Falcon第四步安装Graph（小米开源互联网企业级监控系统）
安装Graph graph组件是存储绘图数据.历史数据的组件.transfer会把接收到的数据,转发给graph. cd /usr/local/open-falcon/graph mv cfg.exa ...
Vmware虚拟机安装win7系统教程
第一步:下载虚拟机可以下载VMware虚拟机,这里用的是Vmware12专业版,百度网盘直通车密码:c3mt密钥:5A02H-AU243-TZJ49-GTC7K-3C61N 第二部:安装第三部:做 ...
【性能测试工具】- ApacheBench
优点:提供的测试结果信息更完备:缺点:每次只能测试一个链接概述: ab全称是ApacheBench,是 Apache 附带的一个HTTP性能测试小工具,可以同时模拟多个并发请求. 安装: Apach ...
地铁间谍洛谷 p2583
题目描述特工玛利亚被送到S市执行一个特别危险的任务.她需要利用地铁完成他的任务,S市的地铁只有一条线路运行,所以并不复杂. 玛利亚有一个任务,现在的时间为0,她要从第一个站出发,并在最后一站的间谍碰 ...
iOS开发中如何创建多个target
在开发iOS应用程序的过程中,经常需要根据不同的需求,切换到不同的项目配置,或者打不同的包(测试环境.开发环境.生产环境等等),如果每次都是手动配置,一则比较麻烦,二则容易配置错,那么有没有更好的方案 ...
Python 序列的修改、散列和切片
Vector类:用户定义的序列类型我们将使用组合模式实现 Vector 类,而不使用继承.向量的分量存储在浮点数数组中,而且还将实现不可变扁平序列所需的方法. p.p1 { margin: 0.0p ...

走近RDD

走近RDD的更多相关文章

随机推荐

热门专题