Spark_RDD之基本RDD操作

1.基本转化操作

1.1最常用的两个转化操作时map（）和filter（）。

　　map（）接收一个函数，把这个函数用于RDD中的每个元素，将函数作用之后的结果作为结果RDD中元素的值。

　　filter（）接收一个函数，将RDD中满足该函数的元素返回放入新的RDD中。

　　举一个使用map（）求RDD平方的例子。scala代码如下：

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf();
    conf.setAppName("map");
    conf.setMaster("local");
    val sc = new SparkContext(conf);
    val num = sc.parallelize(List(, , , ));
    val result = num.map(x => x*x);
    result.take().foreach(println);
  }

对应的Java代码为：

public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setAppName("trans");
        conf.setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(, , , ));
        JavaRDD<Integer> outputRdd = rdd.map(new Function<Integer,Integer >() {
            private static final long serialVersionUID = 1L;
            public Integer call(Integer x) throws Exception {
                return x*x;
            }
        });

        System.out.println(StringUtils.join(",", outputRdd.collect()));
        sc.close();
    }

1.2 flatMap（）

　　有时候我们希望操作一个元素使他返回多个元素，这时我们可以使用flatMap（）。下面举一个例子，将一个包含一个字符串的RDD通过空格切分，返回多个元素。

　　scala代码如下：

   def main(args: Array[String]): Unit = {
        val conf = new SparkConf();
        conf.setAppName("flatmap");
        conf.setMaster("local");
        val sc = new SparkContext(conf);
        val lines = sc.parallelize(List("hello world","hi"));
        val words = lines.flatMap(line => line.split(" "))
        println(words.first())
   }

1.3集合操作

　　1.union（），返回一个包含两个RDD所以元素的RDD。例：

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf();
    conf.setAppName("union");
    conf.setMaster("local");
    val sc = new SparkContext(conf);

    val a = sc.parallelize(List(, , ));
    val b = sc.parallelize(List(, , ));

    val c = a.union(b);
    println(c.collect().mkString(","));
  }

Java代码如下：

    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setAppName("trans");
        conf.setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<Integer> a = sc.parallelize(Arrays.asList(1, 2, 3));
        JavaRDD<Integer> b = sc.parallelize(Arrays.asList(3, 4, 5));
        JavaRDD<Integer> c = a.union(b);

        System.out.println(StringUtils.join(",", c.collect()));
        sc.close();
    }

如果想要去除重复的元素，可以使用distinct（）方法，不过该方法开销很大，因为它需要将所有数据通过网络进行混洗shuffle。

使用intersection（other）方法可以返回两个RDD中都有的元素，它会去除RDD中重复的元素。同样它也需要进行混洗，开销大，效率低。

使用Cartesian（other）计算两个RDD的笛卡尔积。

使用subtract(other)，从一个RDD中移除在另一个RDD含有的元素。

1.4行动操作

　　1.reduce（）：reduce函数接收一个函数，这个函数操作两个RDD并返回一个同样类型的新元素。举个简单的+的例子。

object ReduceRdd {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf();
    conf.setAppName("reduce");
    conf.setMaster("local");
    val sc = new SparkContext(conf);

    val rdd = sc.parallelize(List(1, 2, 3, 4));
    val sum = rdd.reduce((x,y) =>x+y);
    println(sum);
  }
}

　　2.aggregate()：我们可以使用这个函数返回不同类型的新元素。使用这个函数时，首先要提供我们期待返回类型的初始值，然后使用一个函数将RDD的元素进行累加，最后使用一个函数将不同节点上的RDD进行合并。举一个求平均数的例子：

object BasicAvg {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf();
    conf.setAppName("reduce");
    conf.setMaster("local");
    val sc = new SparkContext(conf);

    val num = sc.parallelize(List(1,2,3,4));
    val result = num.aggregate((0,0))((x,y) => (x._1+y,x._2+1), (x,y)=>(x._1+y._1,x._2+y._2));

    val avg = result._1/result._2.toDouble;
    println(avg);
  }
}

　　解释一下aggregate（）的过程，首先给定我们期待的结果的RDD的初始值，为（0,0），第一个值表示的是RDD各个元素的值，第二个值表示的是元素的个数。第一个函数进行的是累加操作，比如第一个RDD累加后的值为（1,1），第二个RDD累加后的值为（3,2），以此类推。第二个函数主要是为了将不同节点上的RDD进行合并。

　　3.还有一些简单的将数据返回给驱动程序的操作，比如

　　collect（），它会将整个RDD的内容返回。

　　take（n）返回RDD的n个元素。

　　foreach（）行动操作对RDD中的每一个元素进行操作。

　　count（）计算RDD中元素的个数。

　　countByValue（）计算各个元素在RDD中出现的次数。

Spark_RDD之基本RDD操作的更多相关文章

Spark学习（一）--RDD操作
标签(空格分隔): 学习笔记 Spark编程模型的两种抽象:RDD(Resilient Distributed Dataset)和两种共享变量(支持并行计算的广播变量和累加器). RDD RDD是一种 ...
RDD操作
RDD操作 1.对一个数据为{1,2,3,3}的RDD进行基本的RDD转化操作函数名目的示例结果 map() 函数应用于RDD中的每个元素 rdd.map(x=>x+1) {2,3,4, ...
Spark编程模型及RDD操作
转载自:http://blog.csdn.net/liuwenbo0920/article/details/45243775 1. Spark中的基本概念在Spark中,有下面的基本概念.Appli ...
Spark 键值对RDD操作
键值对的RDD操作与基本RDD操作一样,只是操作的元素由基本类型改为二元组. 概述键值对RDD是Spark操作中最常用的RDD,它是很多程序的构成要素,因为他们提供了并行操作各个键或跨界点重新进行数 ...
SPARKR，对RDD操作的介绍
(转载)SPARKR,对RDD操作的介绍原以为,用sparkR不能做map操作, 搜了搜发现可以. lapply等同于map, 但是不能操作spark RDD. spark2.0以后, spar ...
spark RDD操作的底层实现原理
RDD操作闭包外部变量原则 RDD相关操作都需要传入自定义闭包函数(closure),如果这个函数需要访问外部变量,那么需要遵循一定的规则,否则会抛出运行时异常.闭包函数传入到节点时,需要经过下面的步 ...
Spark性能优化(2)——广播变量、本地缓存目录、RDD操作、数据倾斜
广播变量背景一般Task大小超过10K时(Spark官方建议是20K),需要考虑使用广播变量进行优化.大表小表Join,小表使用广播的方式,减少Join操作. 参考:Spark广播变量与累加器 L ...
【spark】RDD操作
RDD操作分为转换操作和行动操作. 对于RDD而言,每一次的转化操作都会产生不同的RDD,供一个操作使用. 我们每次转换得到的RDD是惰性求值的也就是说,整个转换过程并不是会真正的去计算,而是只记录 ...
【Spark】RDD操作具体解释4——Action算子
本质上在Actions算子中通过SparkContext运行提交作业的runJob操作,触发了RDD DAG的运行. 依据Action算子的输出空间将Action算子进行分类:无输出. HDFS. S ...

随机推荐

AI 线性代数
1.标量.向量.矩阵和张量 1)标量(scalar),一个数,例如自然数和实数. 2)向量(vector),一列有序数.可以看作只有一列的矩阵. 3)矩阵(matrix),二维数组.转置(transp ...
luogu P1439 【模板】最长公共子序列（LCS）
题目qwq (第一道蓝题) 先把第一个序列每个数出现的顺序记下来(数字本身不用记), 然后第二个序列的每个数都对照它的顺序,这样只要得到一个升序的序列就行了qwq 如果遇到出现顺序在前面的数,就用二分 ...
3分钟学会做智能插座（DIY）
转载请注明:@小五义http://www.cnblogs.com/xiaowuyiQQ群:64770604 感谢博达科技提供的技术支持,博达科技新出了turnip智能插座,通过微信控制,实现了语音控制 ...
android 工具大集合
http://www.androiddevtools.cn/ http://www.sourcetreeapp.com/
php计算utf8字符串长度
strlen()函数计算中文字符不太友好.扩展的mb_strlen()函数可以补充这个.如果没有这个扩展,也可以利用正则匹配分解. 函数如下: // 对utf-8字符的长度 function utf8 ...
LOJ550 Matching 构造
传送门题意:$T$组询问,每组询问给出一个$N \times M$的网格和一个$K$,每一次你可以消除网格中的两个块,如果两个块的曼哈顿距离小于$K$,则不会得到分数,否则得到等同于它们曼哈顿距离的 ...
AngularJs的ng-include的使用与实现
想在angularjs动态加载一个内容,我们可以使用ng-include来实现. 今天Insus.NET就在ASP.NET MVC环境中,举个例子来演示它的功能. 你可以在一个视图动态加载任一其它视图 ...
item 10: 比起unscoped enum更偏爱scoped enum
本文翻译自modern effective C++,由于水平有限,故无法保证翻译完全正确,欢迎指出错误.谢谢! 博客已经迁移到这里啦一般情况下,在花括号中声明一个name(包括变量名,函数名),这个 ...
对于League of Legends的分析
League of Legends是一款在国内甚至国际上都很受欢迎的一款网络竞技行的游戏.它是由美国Riot Games开发,腾讯游戏运营的英雄对战网游.<英雄联盟>除了即时战略.团队作战 ...
wordcount程序中的应用与拓展
设计思路: 关键是思路,首先知道单词, 行,字符, 他们有什么特点: 1.单词,标准的是遇到空格后,单词数,自动加一. 2.行是以\n结束的, 也就是说, 遇到\n行数加一,当然也视你的操作系统而言 ...

Spark_RDD之基本RDD操作

Spark_RDD之基本RDD操作的更多相关文章

随机推荐

热门专题