原文链接:

Spark RDD API扩展开发(1)

Spark RDD API扩展开发(2):自定义RDD

我们都知道,Apache Spark内置了很多操作数据的API。但是很多时候,当我们在现实中开发应用程序的时候,我们需要解决现实中遇到的问题,而这些问题可能在Spark中没有相应的API提供,这时候,我们就需要通过扩展Spark API来实现我们自己的方法。
我们可以通过两种方法来扩展Spark API,(1)、其中一种就是在现有的RDD中添加自定义的方法;(2)、第二种就是创建属于我们自己的RDD。在这篇文章中,我将对这两种方法进行阐述,并赋予代码 。下面我就开始介绍第一种方法。

  假如我们中有一些商品的销售数据,数据的格式是CSV的。为了简单起见,假如每行数据都是由id, customerId, itemId 以及itemValue四个字段组成,我们用SalesRecord来表示:

1 class SalesRecord(val id: String,
2                   val customerId: String,
3                   val itemId: String,
4                   val itemValue: Double) extends Comparable[SalesRecord]
5 with Serializable

  所以我们可以将商品的销售数据进行解析,并存储到RDD[SalesRecord]中:

01 /**
02  * User: 过往记忆
03  * Date: 15-03-31
04  * Time: 上午00:24
05  * bolg: http://www.iteblog.com
06  * 本文地址:http://www.iteblog.com/archives/1298
07  * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货
08  * 过往记忆博客微信公共帐号:iteblog_hadoop
09  */
10  
11 val sc = new SparkContext(args(0), "iteblogRDDExtending")
12 val dataRDD = sc.textFile("file:///www/iteblog.csv")
13 val salesRecordRDD = dataRDD.map(row => {
14     val colValues = row.split(",")
15     new SalesRecord(colValues(0),colValues(1),
16     colValues(2),colValues(3).toDouble)
17 })

  如果我们想计算出这些商品的总销售额,我们会这么来写:

1 salesRecordRDD.map(_.itemValue).sum

  虽然这看起来很简洁,但是理解起来却有点困难。但是如果我们可以这么来写,可能会很好理解:

1 salesRecordRDD.totalSales

  在上面的代码片段中,totalSales方法让我们感觉就是Spark内置的操作一样,但是Spark是不提供这个方法的,我们需要在现有的RDD中实现我们自定义的操作。

  下面我就来介绍一些如何在现有的RDD中添加我们自定义的方法。

  一、定义一个工具类,来存放我们所有自定义的操作

  当然,你完全没必要自定义一个类类添加我们自定义的方法,但是为了管理,还是建议你这么做。下面我们来定义IteblogCustomFunctions类,它存储所有我们自定义的方法。它是专门用来处理RDD[SalesRecord],所以这个类中提供的操作全部是用来处理销售数据的:

1 class IteblogCustomFunctions(rdd:RDD[SalesRecord]) {
2   def totalSales =rdd.map(_.itemValue).sum 
3 }

  二、隐形转换来实现在RDD中添加方法

  我们定义了隐形的addIteblogCustomFunctions函数,这可以将所有操作销售数据的方法作用于RDD[SalesRecord]上:

01 /**
02  * User: 过往记忆
03  * Date: 15-03-31
04  * Time: 上午00:24
05  * bolg: http://www.iteblog.com
06  * 本文地址:http://www.iteblog.com/archives/1298
07  * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货
08  * 过往记忆博客微信公共帐号:iteblog_hadoop
09  */
10  
11 object IteblogCustomFunctions {
12   implicit def addIteblogCustomFunctions(rdd: RDD[SalesRecord]) = new
13   IteblogCustomFunctions(rdd)
14 }

  三、使用自定义的方法

  下面方法通过导入IteblogCustomFunctions 中的相应方法来实现使用我们自定义的方法:

1 import IteblogCustomFunctions._
2 println(salesRecordRDD.totalSales)

  通过上面三步我们就可以在现有的RDD中添加我们自定义的方法。

自定义一个RDD类

在上文中我介绍了如何在现有的RDD中添加自定义的函数。本文将介绍如何自定义一个RDD类,假如我们想对没见商品进行打折,我们想用Action操作来实现这个操作,下面我将定义IteblogDiscountRDD类来计算商品的打折,步骤如下:

  一、创建IteblogDiscountRDD类

  自定义RDD类需要继承Spark中的RDD类,并实现其中的方法:

01 /**
02  * User: 过往记忆
03  * Date: 15-04-01
04  * Time: 上午00:59
05  * bolg: http://www.iteblog.com
06  * 本文地址:http://www.iteblog.com/archives/1299
07  * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货
08  * 过往记忆博客微信公共帐号:iteblog_hadoop
09  */
10 classIteblogDiscountRDD(prev:RDD[SalesRecord],xxxxx:Double)
11     extends RDD[SalesRecord](prev){
12  
13 //继承compute方法
14 override def compute(split: Partition, context: TaskContext): Iterator[SalesRecord] =  {
15   firstParent[SalesRecord].iterator(split, context).map(salesRecord => {
16       val discount = salesRecord.itemValue*discountPercentage
17       new SalesRecord(salesRecord.id,
18       salesRecord.customerId,salesRecord.itemId,discount)
19 })}
20  
21 //继承getPartitions方法
22 override protected def getPartitions: Array[Partition] =
23       firstParent[SalesRecord].partitions
24 }

  上面代码中,我创建了一个IteblogDiscountRDD类,这个RDD只操纵销售数据,当我们继承RDD类时,我们必须重载两个方法:
  compute

  这个函数是用来计算RDD中每个的分区的数据,在我代码中,我们输入了销售数据,并对其中的数据计算打折计算。

  getPartitions
  
  getPartitions函数允许开发者为RDD定义新的分区,在我们的代码中,并没有改变RDD的分区,重用了父RDD的分区。

  定义IteblogDiscountRDD的时候将类型写死了(SalesRecord),它只能用来处理SalesRecord数据。如果我们想定义一个通用的RDD,只需要类似下面写即可

01 classIteblogRDD(prev:RDD[T],XXXX:C)
02     extends RDD[T](prev){
03  
04 //继承compute方法
05 override def compute(split: Partition, context: TaskContext): Iterator[T] =  {
06   ................................
07 }
08  
09 //继承getPartitions方法
10 override protected def getPartitions: Array[Partition] =
11       ................................
12 }

  二、自定义discount函数

  我们自定义discount函数,该函数可以创建一个IteblogDiscountRDD:

1 def discount(discountPercentage:Double) = new IteblogDiscountRDD(rdd,discountPercentage)

  三、使用IteblogDiscountRDD

  使用IteblogDiscountRDD也是非常简单的,我们可以像使用内置的RDD一样来使用:

1 import IteblogCustomFunctions._
2  
3 val discountRDD = salesRecordRDD.discount(0.1)
4 println(discountRDD.collect().toList)

  自此,我们已经学会了如何在现有的RDD中定义方法和自定义自己的RDD。

Spark RDD API扩展开发的更多相关文章

  1. Spark RDD API详解(一) Map和Reduce

    RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不同 ...

  2. Spark RDD API具体解释(一) Map和Reduce

    本文由cmd markdown编辑.原始链接:https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,不论什么数据在S ...

  3. Spark RDD API详解之:Map和Reduce

    RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看, RDD可以简单看成是一个数组.和普通数组的区别是,RDD中的数据是分区存储的,这样不 ...

  4. Spark RDD API(scala)

    1.RDD RDD(Resilient Distributed Dataset弹性分布式数据集)是Spark中抽象的数据结构类型,任何数据在Spark中都被表示为RDD.从编程的角度来看,RDD可以简 ...

  5. spark (java API) 在Intellij IDEA中开发并运行

    概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序. 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中 ...

  6. 且谈 Apache Spark 的 API 三剑客:RDD、DataFrame 和 Dataset

    作者:Jules S. Damji 译者:足下 本文翻译自 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets ,翻译已 ...

  7. Spark RDD/Core 编程 API入门系列之动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战(二)

    1.动手实战和调试Spark文件操作 这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 spark@SparkSingleNode:/usr/ ...

  8. Spark RDD/Core 编程 API入门系列之map、filter、textFile、cache、对Job输出结果进行升和降序、union、groupByKey、join、reduce、lookup(一)

    1.以本地模式实战map和filter 2.以集群模式实战textFile和cache 3.对Job输出结果进行升和降序 4.union 5.groupByKey 6.join 7.reduce 8. ...

  9. Apache Spark 2.2.0 中文文档 - Spark RDD(Resilient Distributed Datasets)论文 | ApacheCN

    Spark RDD(Resilient Distributed Datasets)论文 概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD ...

随机推荐

  1. c++ primer 11 泛型算法

    使用泛型算法必须包含头文件#inlucde <algorithm> 标准库还定义一组泛化的算术算法,其命名习惯与泛型算法相同,包含头文件#include <numeric> f ...

  2. python通过帐号和密码访问mysql

    数据库:test1  数据表:a1 用input输入姓名和密码,对了的话显示信息.不对的话显示error import pymysql import hashlib conn = pymysql.co ...

  3. bzoj 1176 CDQ分治

    思路:首先我们将问题转换一下,变成问在某个点左下角的权值和,那么每一个询问可以拆成4的这样的询问,然后 进行CDQ 分治,回溯的时候按x轴排序,然后用树状数组维护y的值. #include<bi ...

  4. Diffie–Hellman key exchange

    General overview[edit]   Illustration of the idea behind Diffie–Hellman key exchange Diffie–Hellman ...

  5. HDU 3074.Multiply game-区间乘法-线段树(单点更新、区间查询),上推标记取模

    Multiply game Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Tot ...

  6. 【转载】Xutils3-Dbutils

    Github源码地址:https://github.com/wyouflf/xUtils3 下面是源码中sample关于Dbutils的使用代码: import android.view.View; ...

  7. 429.N叉树的层次遍历

    给定一个 N 叉树,返回其节点值的层序遍历. (即从左到右,逐层遍历). 例如,给定一个 3叉树 : 返回其层序遍历: [ [1], [3,2,4], [5,6] ] 说明: 树的深度不会超过 100 ...

  8. HDU 6030 Happy Necklace

    矩阵快速幂. 因为任意素数长度都要满足,所以$3$必须满足,$3$一旦满足,其余的肯定满足,也就是说只要考虑字符串末尾两位即可,$dp$一下就可以算方案数了.$n$较大,可以矩阵加速. #includ ...

  9. 洛谷P2731 骑马修栅栏 [欧拉回路]

    题目传送门 骑马修栅栏 题目背景 Farmer John每年有很多栅栏要修理.他总是骑着马穿过每一个栅栏并修复它破损的地方. 题目描述 John是一个与其他农民一样懒的人.他讨厌骑马,因此从来不两次经 ...

  10. NOIP2013 D1 T3 货车运输

    好吧,遇上这种题,作为蒟蒻的我第一个想到的就是怎么打暴力,然而暴力都打不好QAQ!!!于是只能等教练讲解以后,然后在大犇的指导下终于做出来了. 对了,,好像还,没上题....: 题目描述 A 国有 n ...