RDD java API使用

1.RDD介绍：

RDD，弹性分布式数据集，即分布式的元素集合。在spark中，对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后，Spark会自动将RDD中的数据分发到集群中，并将操作并行化。

Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。RDD可以包含Python，Java，Scala中任意类型的对象，甚至可以包含用户自定义的对象。

用户可以使用两种方法创建RDD：读取一个外部数据集，或在驱动器程序中分发驱动器程序中的对象集合，比如list或者set。

RDD的转化操作都是惰性求值的，这意味着我们对RDD调用转化操作，操作不会立即执行。相反，Spark会在内部记录下所要求执行的操作的相关信息。我们不应该把RDD看做存放着特定数据的数据集，而最好把每个RDD当做我们通过转化操作构建出来的、记录如何计算数据的指令列表。数据读取到RDD中的操作也是惰性的，数据只会在必要时读取。转化操作和读取操作都有可能多次执行。

2.创建RDD数据集

（1）读取一个外部数据集

JavaRDD<String> lines=sc.textFile(inputFile);

（2）分发对象集合，这里以list为例

List<String> list=new ArrayList<String>();

list.add("a");

list.add("b");

list.add("c");

JavaRDD<String> temp=sc.parallelize(list);

//上述方式等价于

JavaRDD<String> temp2=sc.parallelize(Arrays.asList("a","b","c"));

3.RDD操作

（1）转化操作

用java实现过滤器转化操作：

List<String> list=new ArrayList<String>();

//建立列表，列表中包含以下自定义表项

list.add("error:a");

list.add("error:b");

list.add("error:c");

list.add("warning:d");

list.add("hadppy ending!");

//将列表转换为RDD对象

JavaRDD<String> lines = sc.parallelize(list);

//将RDD对象lines中有error的表项过滤出来，放在RDD对象errorLines中

JavaRDD<String> errorLines = lines.filter(

        new Function<String, Boolean>() {

            public Boolean call(String v1) throws Exception {

                return v1.contains("error");

            }

        }

);

//遍历过滤出来的列表项

List<String> errorList = errorLines.collect();

for (String line : errorList)

    System.out.println(line);

输出：

error:a

error:b

error:c

可见，列表list中包含词语error的表项都被正确的过滤出来了。

（2）合并操作

将两个RDD数据集合并为一个RDD数据集

接上述程序示例：

union

输出：

error:a

error:b

error:c

warning:d

可见，将原始列表项中的所有error项和warning项都过滤出来了。

（3）获取RDD数据集中的部分或者全部元素

①获取RDD数据集中的部分元素 .take(int num) 返回值List<T>

获取RDD数据集中的前num项。

/**

 * Take the first num elements of the RDD. This currently scans the partitions *one by one*, so

 * it will be slow if a lot of partitions are required. In that case, use collect() to get the

 * whole RDD instead.

 */

def take(num: Int): JList[T]

程序示例：接上

JavaRDD<String> unionLines=errorLines.union(warningLines);

for(String line :unionLines.take(2))

    System.out.println(line);

输出：

error:a

error:b

可见，输出了RDD数据集unionLines的前2项

②获取RDD数据集中的全部元素 .collect() 返回值 List<T>

程序示例：

List<String> unions=unionLines.collect();

for(String line :unions)

    System.out.println(line);

遍历输出RDD数据集unions的每一项

4.向spark传递函数

函数名	实现的方法	用途
Function<T,R>	R call(T)	接收一个输入值并返回一个输出值，用于类似map()和filter()的操作中
Function<T1,T2,R>	R call(T1,T2)	接收两个输入值并返回一个输出值，用于类似aggregate()和fold()等操作中
FlatMapFunction<T,R>	Iterable <R> call(T)	接收一个输入值并返回任意个输出，用于类似flatMap()这样的操作中

①Function<T,R>

JavaRDD<String> errorLines=lines.filter(

        new Function<String, Boolean>() {

            public Boolean call(String v1)throws Exception {

                return v1.contains("error");

            }

        }

);

过滤RDD数据集中包含error的表项，新建RDD数据集errorLines

②FlatMapFunction<T,R>

List<String> strLine=new ArrayList<String>();

strLine.add("how are you");

strLine.add("I am ok");

strLine.add("do you love me")

JavaRDD<String> input=sc.parallelize(strLine);

JavaRDD<String> words=input.flatMap(

        new FlatMapFunction<String, String>() {

            public Iterable<String> call(String s) throws Exception {

                return Arrays.asList(s.split(" "));

            }

        }

);

将文本行的单词过滤出来，并将所有的单词保存在RDD数据集words中。

③ Function<T1,T2,R>

List<String> strLine=new ArrayList<String>();

strLine.add("how are you");

strLine.add("I am ok");

strLine.add("do you love me");

JavaRDD<String> input=sc.parallelize(strLine);

JavaRDD<String> words=input.flatMap(

        new FlatMapFunction<String, String>() {

            public Iterable<String> call(String s) throws Exception {

                return Arrays.asList(s.split(" "));

            }

        }

);

JavaPairRDD<String,Integer> counts=words.mapToPair(

        new PairFunction<String, String, Integer>() {

            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2(s, 1);

            }

        }

);

JavaPairRDD <String,Integer> results=counts.reduceByKey(

        new org.apache.spark.api.java.function.Function2<Integer, Integer, Integer>() {

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        }

) ;

上述程序是spark中的wordcount实现方式，其中的reduceByKey操作的Function2函数定义了遇到相同的key时，value是如何reduce的->直接将两者的value相加。

*注意：

可以将我们的函数类定义为使用匿名内部类，就像上述程序实现的那样，也可以创建一个具名类，就像这样：

class ContainError implements Function<String,Boolean>{

    public Boolean call(String v1) throws Exception {

        return v1.contains("error");

    }

}

JavaRDD<String> errorLines=lines.filter(new ContainError());

for(String line :errorLines.collect())

    System.out.println(line);

具名类也可以有参数，就像上述过滤出含有”error“的表项，我们可以自定义到底含有哪个词语，就像这样，程序就更有普适性了。

5.针对每个元素的转化操作：

转化操作map()接收一个函数，把这个函数用于RDD中的每个元素，将函数的返回结果作为结果RDD中对应的元素。关键词：转化

转化操作filter()接受一个函数，并将RDD中满足该函数的元素放入新的RDD中返回。关键词：过滤

示例图如下所示：

①map()

计算RDD中各值的平方

JavaRDD<Integer> rdd =sc.parallelize(Arrays.asList(1,2,3,4));

JavaRDD<Integer> result=rdd.map(

    new Function<Integer, Integer>() {

        public Integer call(Integer v1) throwsException {

        return v1*v1;

        }

    }

);

System.out.println( StringUtils.join(result.collect(),","));

输出：

1,4,9,16

filter()

② 去除RDD集合中值为1的元素：

JavaRDD<Integer> rdd =sc.parallelize(Arrays.asList(1,2,3,4));

JavaRDD<Integer> results=rdd.filter(

new Function<Integer, Boolean>() {

    public Boolean call(Integer v1) throws Exception {

        return v1!=1;

        }

    }

);

System.out.println(StringUtils.join(results.collect(),","));

结果：

2,3,4

③ 有时候，我们希望对每个输入元素生成多个输出元素。实现该功能的操作叫做flatMap()。和map()类似，我们提供给flatMap()的函数被分别应用到了输入的RDD的每个元素上。不过返回的不是一个元素，而是一个返回值序列的迭代器。输出的RDD倒不是由迭代器组成的。我们得到的是一个包含各个迭代器可以访问的所有元素的RDD。flatMap()的一个简单用途是将输入的字符串切分成单词，如下所示：

JavaRDD<String> rdd =sc.parallelize(Arrays.asList("hello world","hello you","world i love you"));

JavaRDD<String> words=rdd.flatMap(

    new FlatMapFunction<String, String>() {

        public Iterable<String> call(String s) throws Exception {

            return Arrays.asList(s.split(" "));

        }

    }

);

System.out.println(StringUtils.join(words.collect(),'\n'));

输出：

hello

world

hello

you

world

love

you

6.集合操作

RDD中的集合操作

函数	用途
RDD1.distinct()	生成一个只包含不同元素的新RDD。需要数据混洗。
RDD1.union(RDD2)	返回一个包含两个RDD中所有元素的RDD
RDD1.intersection(RDD2)	只返回两个RDD中都有的元素
RDD1.substr(RDD2)	返回一个只存在于第一个RDD而不存在于第二个RDD中的所有元素组成的RDD。需要数据混洗。

集合操作对笛卡尔集的处理：

RDD1.cartesian(RDD2)

返回两个RDD数据集的笛卡尔集

程序示例：生成RDD集合{1,2} 和{1,2}的笛卡尔集

JavaRDD<Integer> rdd1 = sc.parallelize(Arrays.asList(1,2));

JavaRDD<Integer> rdd2 = sc.parallelize(Arrays.asList(1,2));

JavaPairRDD<Integer ,Integer> rdd=rdd1.cartesian(rdd2);

for(Tuple2<Integer,Integer> tuple:rdd.collect())

    System.out.println(tuple._1()+"->"+tuple._2());

输出：

1->1

1->2

2->1

2->2

7.行动操作

(1)reduce操作

reduce()接收一个函数作为参数，这个函数要操作两个RDD的元素类型的数据并返回一个同样类型的新元素。一个简单的例子就是函数+，可以用它来对我们的RDD进行累加。使用reduce(),可以很方便地计算出RDD中所有元素的总和，元素的个数，以及其他类型的聚合操作。

以下是求RDD数据集所有元素和的程序示例：

JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1,2,3,4,5,6,7,8,9,10));

Integer sum =rdd.reduce(

    new Function2<Integer, Integer, Integer>() {

        public Integercall(Integer v1, Integer v2) throws Exception {

            return v1+v2;

        }

    }

);

System.out.println(sum.intValue());

输出：55

(2)fold()操作

接收一个与reduce()接收的函数签名相同的函数，再加上一个初始值来作为每个分区第一次调用时的结果。你所提供的初始值应当是你提供的操作的单位元素，也就是说，使用你的函数对这个初始值进行多次计算不会改变结果（例如+对应的0，*对应的1，或者拼接操作对应的空列表）。

程序实例：

①计算RDD数据集中所有元素的和：

zeroValue=0;//求和时，初始值为0。

JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1,2,3,4,5,6,7,8,9,10));

Integer sum =rdd.fold(0,

        new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1+v2;

            }

        }

);

System.out.println(sum);

②计算RDD数据集中所有元素的积：

zeroValue=1；//求积时，初始值为1。

JavaRDD<Integer> rdd = sc.parallelize(Arrays.asList(1,2,3,4,5,6,7,8,9,10));

Integer result =rdd.fold(1,

        new Function2<Integer, Integer, Integer>() {

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1*v2;

            }

        }

);

System.out.println(result);

(3)aggregate()操作

aggregate()函数返回值类型不必与所操作的RDD类型相同。

与fold()类似，使用aggregate()时，需要提供我们期待返回的类型的初始值。然后通过一个函数把RDD中的元素合并起来放入累加器。考虑到每个节点是在本地进行累加的，最终，还需要提供第二个函数来将累加器两两合并。

以下是程序实例：

public class AvgCount implements Serializable{

public int total;

    public int num;

    public AvgCount(int total,int num){

    this.total=total;

    this.num=num;

}

public double avg(){

    return total/(double)num;

}

static Function2<AvgCount,Integer,AvgCount> addAndCount=

new Function2<AvgCount, Integer, AvgCount>() {

    public AvgCount call(AvgCount a, Integer x) throws Exception {

        a.total+=x;

        a.num+=1;

        return a;

        }

};

static Function2<AvgCount,AvgCount,AvgCount> combine=

    new Function2<AvgCount, AvgCount, AvgCount>() {

        public AvgCount call(AvgCount a, AvgCount b) throws Exception {

            a.total+=b.total;

            a.num+=b.num;

            return a;

        }

 };

    public static void main(String args[]){

        SparkConf conf = new SparkConf().setMaster("local").setAppName("my app");

        JavaSparkContext sc = new JavaSparkContext(conf);

        AvgCount intial =new AvgCount(0,0);

        JavaRDD<Integer> rdd =sc.parallelize(Arrays.asList(1, 2, 3, 4, 5, 6));

        AvgCount result=rdd.aggregate(intial,addAndCount,combine);

        System.out.println(result.avg());

    }

}

这个程序示例可以实现求出RDD对象集的平均数的功能。其中addAndCount将RDD对象集中的元素合并起来放入AvgCount对象之中，combine提供两个AvgCount对象的合并的实现。我们初始化AvgCount(0,0)，表示有0个对象，对象的和为0，最终返回的result对象中total中储存了所有元素的和，num储存了元素的个数，这样调用result对象的函数avg()就能够返回最终所需的平均数，即avg=tatal/（double）num。

8.持久化缓存

因为Spark RDD是惰性求值的，而有时我们希望能多次使用同一个RDD。如果简单地对RDD调用行动操作，Spark每次都会重算RDD以及它的所有依赖。这在迭代算法中消耗格外大，因为迭代算法常常会多次使用同一组数据。

为了避免多次计算同一个RDD，可以让Spark对数据进行持久化。当我们让Spark持久化存储一个RDD时，计算出RDD的节点会分别保存它们所求出的分区数据。

出于不同的目的，我们可以为RDD选择不同的持久化级别。默认情况下persist()会把数据以序列化的形式缓存在JVM的堆空间中

不同关键字对应的存储级别表

级别	使用的空间	cpu时间	是否在内存	是否在磁盘	备注
MEMORY_ONLY	高	低	是	否	直接储存在内存
MEMORY_ONLY_SER	低	高	是	否	序列化后储存在内存里
MEMORY_AND_DISK	低	中等	部分	部分	如果数据在内存中放不下，溢写在磁盘上
MEMORY_AND_DISK_SER	低	高	部分	部分	数据在内存中放不下，溢写在磁盘中。内存中存放序列化的数据。
DISK_ONLY	低	高	否	是	直接储存在硬盘里面

程序示例：将RDD数据集持久化在内存中。

JavaRDD<Integer> rdd =sc.parallelize(Arrays.asList(1,2,3,4,5));

rdd.persist(StorageLevel.MEMORY_ONLY());

System.out.println(rdd.count());

System.out.println(StringUtils.join(rdd.collect(),','));

RDD还有unpersist()方法，调用该方法可以手动把持久化的RDD从缓存中移除。

9.不同的RDD类型

Java中有两个专门的类JavaDoubleRDD和JavaPairRDD,来处理特殊类型的RDD，这两个类还针对这些类型提供了额外的函数，折让你可以更加了解所发生的一切，但是也显得有些累赘。

要构建这些特殊类型的RDD，需要使用特殊版本的类来替代一般使用的Function类。如果要从T类型的RDD创建出一个DoubleRDD，我们就应当在映射操作中使用DoubleFunction<T>来替代Function<T,Double>。

程序实例：以下是一个求RDD每个对象的平方值的程序实例，将普通的RDD对象转化为DoubleRDD对象，最后调用DoubleRDD对象的max()方法，返回生成的平方值中的最大值。

JavaRDD<Integer> rdd =sc.parallelize(Arrays.asList(1,2,3,4,5));

JavaDoubleRDD result=rdd.mapToDouble(

    new DoubleFunction<Integer>() {

        public double call(Integer integer) throws Exception {

            return (double) integer*integer;

        }

    }

);

System.out.println(result.max());

https://blog.csdn.net/xiefu5hh/article/details/51782319

RDD java API使用的更多相关文章

Spark基础与Java Api介绍
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3832405.html 一.Spark简介 1.什么是Spark 发源于AMPLab实验室的分布式内存计 ...
Spark：java api实现word count统计
方案一:使用reduceByKey 数据word.txt 张三李四王五李四王五李四王五李四王五王五李四李四李四李四李四代码: import org.apache.spar ...
降维-基于RDD的API
降维-基于RDD的API Singular value decomposition (SVD) Performance SVD Example Principal component analysis ...
Spark笔记：复杂RDD的API的理解（上）
本篇接着讲解RDD的API,讲解那些不是很容易理解的API,同时本篇文章还将展示如何将外部的函数引入到RDD的API里使用,最后通过对RDD的API深入学习,我们还讲讲一些和RDD开发相关的scala ...
Atitit 图像处理调用opencv 通过java api attilax总结
Atitit 图像处理调用opencv 通过java api attilax总结 1.1. Opencv java api的支持 opencv2.4.2 就有了对java api的支持1 1. ...
【分布式】Zookeeper使用--Java API
一.前言上一篇博客我们通过命令行来操作Zookeper的客户端和服务端并进行相应的操作,这篇主要介绍如何通过API(JAVA)来操作Zookeeper. 二.开发环境配置首先打开Zookeeper ...
Elasticsearch的CRUD：REST与Java API
CRUD(Create, Retrieve, Update, Delete)是数据库系统的四种基本操作,分别表示创建.查询.更改.删除,俗称"增删改查".Elasticsearch ...
[转]HDFS中JAVA API的使用
HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的文件进行操作的过程. 对分HDFS中的 ...
HDFS中JAVA API的使用
HDFS中JAVA API的使用 HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的 ...

随机推荐

戴尔 R730 服务器装 server 2016。
服务器里面原装系统是 centos 7 ,服务器快递过来时我没用root账号,(主要是主管忘了这台服务器用户名密码了). 需要用的系统是 server 2016 我这边就按正常的装机流程装机. 1, ...
Crossover 19(Mac运行Windows应用程序)
怎样才能在Mac上运行Windows应用程序?相信这是很多朋友都在问的问题,今天macdown(mac软件平台)小编为大家带来Crossover 19 Mac版下载,Crossover 19 mac版 ...
Luogu P1290 欧几里得的游戏/UVA10368 Euclid's Game
Luogu P1290 欧几里得的游戏/UVA10368 Euclid's Game 对于博弈论的题目没接触过多少,而这道又是比较经典的SG博弈,所以就只能自己来推关系-- 假设我们有两个数$m,n$ ...
小知识——c++关于指针的理解
参考文章: 简介: 指针可以简化c++编程,在一些任务中没有指针是无法完成的(动态内存分配) 使用 & 可以获得变量在内存中的地址: eg: #include <iostream> ...
01-Spring概述
1.spring是什么 Spring是分层的Java SE/EE应用 full-stack轻量级开源框架,以IoC(Inverse Of Control:反转控制)和AOP(Aspect Orient ...
【xsy1103】随机数表（RanMat）矩阵快速幂
题目大意:你生成了一个随机数表,生成机制是这样子的: $a[i]=A1a[i-1]+A2(2≤i≤m)$ $b[i]=B1b[i-1]+B2(2≤i≤m)$ $M[1][y]=a[y]%P,(1≤y≤ ...
TDOA 基础之双曲线
TDOA 的算法基础就是时间差,根据时间差换算出距离差,后面的数学理论知识就是双曲线交点问题. 双曲线方程是2次方程,解算曲线交点也就是两个2次方程求解. 首先看双曲线定义(百度百科): 双曲线(Hy ...
微信公众号开发--微信JS-SDK分享到朋友圈和分享给朋友
之前写过一篇使用微信JS-SDK来实现扫一扫功能的博客微信公众号开发–微信JS-SDK扫一扫功能在该博客里介绍了微信JS-SDK的基本用法,其中包括以下几个步骤还详细介绍了通过config接口注 ...
Hadoop集群分布搭建
一.准备工作 1.最少三台虚拟机或者实体机(官网上是默认是3台),我这边是3台 s1: 10.211.55.18 s2: 10.211.55.19 s3: 10.211.55.20 2.安装JDK 3 ...
spark的广播变量
直接上代码:包含了,map,filter,persist,mapPartitions等函数 String master = "spark://192.168.2.279:7077" ...

RDD java API使用

RDD java API使用的更多相关文章

随机推荐

热门专题