Spark中的各种action算子操作（java版）

在我看来，Spark编程中的action算子的作用就像一个触发器，用来触发之前的transformation算子。transformation操作具有懒加载的特性，你定义完操作之后并不会立即加载，只有当某个action的算子执行之后，前面所有的transformation算子才会全部执行。常用的action算子如下代码所列：（java版）
package cn.spark.study.core;

import java.util.Arrays;
import java.util.List;
import java.util.Map;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;

import scala.Tuple2;

/**
* action操作实战
* @author dd
*
*/
public class ActionOperation {
public static void main(String[] args) {
//reduceTest();
//collectTest();
//countTest();
//takeTest();
countByKeyTest();
}

 /**

  * reduce算子

  * 案例：求累加和

  */

 private static void reduceTest(){

     SparkConf conf = new SparkConf()

                     .setAppName("reduce")

                     .setMaster("local");

     JavaSparkContext sc = new JavaSparkContext(conf);

     List<Integer> numberList = Arrays.asList(1,2,3,4,5,6,7,8,9,10);

     JavaRDD<Integer> numbersRDD = sc.parallelize(numberList);

     //使用reduce操作对集合中的数字进行累加

     int sum = numbersRDD.reduce(new Function2<Integer, Integer, Integer>() {

         @Override

         public Integer call(Integer arg0, Integer arg1) throws Exception {

             return arg0+arg1;

         }

     });

     System.out.println(sum);

     sc.close();

 }

 /**

  * collect算子

  * 可以将集群上的数据拉取到本地进行遍历（不推荐使用）

  */

 private static void collectTest(){

     SparkConf conf = new SparkConf()

     .setAppName("collect")

     .setMaster("local");

     JavaSparkContext sc = new JavaSparkContext(conf);

     List<Integer> numberList = Arrays.asList(1,2,3,4,5,6,7,8,9,10);

     JavaRDD<Integer> numbersRDD = sc.parallelize(numberList);

     JavaRDD<Integer> doubleNumbers = numbersRDD.map(new Function<Integer, Integer>() {

         @Override

         public Integer call(Integer arg0) throws Exception {

             // TODO Auto-generated method stub

             return arg0*2;

         }

     });

     //foreach的action操作是在远程集群上遍历rdd中的元素，而collect操作是将在分布式集群上的rdd

     //数据拉取到本地，这种方式一般不建议使用，因为如果rdd中的数据量较大的话，比如超过一万条，那么性能会

     //比较差，因为要从远程走大量的网络传输，将数据获取到本地，有时还可能发生oom异常，内存溢出

     //所以还是推荐使用foreach操作来对最终的rdd进行处理

     List<Integer> doubleNumList = doubleNumbers.collect();

     for(Integer num : doubleNumList){

         System.out.println(num);

     }

     sc.close();

 }

 /**

  * count算子

  * 可以统计rdd中的元素个数

  */

 private static void countTest(){

     SparkConf conf = new SparkConf()

     .setAppName("count")

     .setMaster("local");

     JavaSparkContext sc = new JavaSparkContext(conf);

     List<Integer> numberList = Arrays.asList(1,2,3,4,5,6,7,8,9,10);

     JavaRDD<Integer> numbersRDD = sc.parallelize(numberList);

     //对rdd使用count操作统计rdd中元素的个数

     long count = numbersRDD.count();

     System.out.println(count);

     sc.close();

 }

 /**

  * take算子

  * 将远程rdd的前n个数据拉取到本地

  */

 private static void takeTest(){

     SparkConf conf = new SparkConf()

     .setAppName("take")

     .setMaster("local");

     JavaSparkContext sc = new JavaSparkContext(conf);

     List<Integer> numberList = Arrays.asList(1,2,3,4,5,6,7,8,9,10);

     JavaRDD<Integer> numbersRDD = sc.parallelize(numberList);

     //take操作与collect操作类似，也是从远程集群上获取rdd数据，但是，collect操作获取的是rdd的

     //所有数据，take获取的只是前n个数据

     List<Integer> top3number = numbersRDD.take(3);

     for(Integer num : top3number){

         System.out.println(num);

     }

     sc.close();

 }

 /**

  * saveAsTextFile算子

  *

  */

 private static void saveAsTExtFileTest(){

     SparkConf conf = new SparkConf()

     .setAppName("saveAsTextFile");

     JavaSparkContext sc = new JavaSparkContext(conf);

     List<Integer> numberList = Arrays.asList(1,2,3,4,5,6,7,8,9,10);

     JavaRDD<Integer> numbersRDD = sc.parallelize(numberList);

     JavaRDD<Integer> doubleNumbers = numbersRDD.map(new Function<Integer, Integer>() {

         @Override

         public Integer call(Integer arg0) throws Exception {

             // TODO Auto-generated method stub

             return arg0*2;

         }

     });

     //saveAsTextFile算子可以直接将rdd中的数据保存在hdfs中

     //但是我们在这里只能指定保存的文件夹也就是目录，那么实际上，会保存为目录中的

     //  /double_number.txt/part-00000文件

     doubleNumbers.saveAsTextFile("hdfs://spark1:9000/double_number.txt");

     sc.close();

 }

 /**

  * countByKey算子

  */

 private static void countByKeyTest(){

     SparkConf conf = new SparkConf()

     .setAppName("take")

     .setMaster("local");

     JavaSparkContext sc = new JavaSparkContext(conf);

     List<Tuple2<String, String>> studentsList = Arrays.asList(

             new Tuple2<String, String>("class1","leo"),

             new Tuple2<String, String>("class2","jack"),

             new Tuple2<String, String>("class1","marry"),

             new Tuple2<String, String>("class2","tom"),

             new Tuple2<String, String>("class2","david"));

     JavaPairRDD<String, String> studentsRDD = sc.parallelizePairs(studentsList);

     //countByKey算子可以统计每个key对应元素的个数

     //countByKey返回的类型直接就是Map<String,Object>

     Map<String, Object> studentsCounts = studentsRDD.countByKey();

     for(Map.Entry<String, Object> studentsCount : studentsCounts.entrySet()){

         System.out.println(studentsCount.getKey()+" : "+studentsCount.getValue());

     }

     sc.close();

 }

原文引自：http://blog.csdn.net/kongshuchen/article/details/51344124

Spark中的各种action算子操作（java版）的更多相关文章

spark中产生shuffle的算子
Spark中产生shuffle的算子作用算子名能否替换,由谁替换去重 distinct() 不能聚合 reduceByKey() groupByKey groupBy() groupByKe ...
Spark中的键值对操作
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
spark 中的RDD编程 -以下基于Java api
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...
Spark中的键值对操作-scala
1.PairRDD介绍 Spark为包含键值对类型的RDD提供了一些专有的操作.这些RDD被称为PairRDD.PairRDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口.例如,Pa ...
spark中map和mapPartitions算子的区别
区别: 1.map是对rdd中每一个元素进行操作 2.mapPartitions是对rdd中每个partition的迭代器进行操作 mapPartitions优点: 1.若是普通map,比如一个par ...
Unity Game窗口中还原Scene窗口摄像机操作强化版
之前写的那个版本看来真的是不行啊.最近研究了一下官方第一人称脚本,人家的平滑过渡真的是没得说.借鉴了一下,写出来了一个新的比较完美的控制. 之前我们的操作是通过鼠标输入的开始坐标和转动坐标.其实官方有 ...
操作系统中的几种调度算法（JAVA版）
import java.text.DecimalFormat; import java.util.Arrays; import java.util.Scanner; /* * 作者:Chensx102 ...
python 中调用windows系统api操作剪贴版
# -*- coding: utf-8 -*- ''' Created on 2013-11-26 @author: Chengshaoling ''' import win32clipboard a ...
字符串中的空格替换问题（Java版）
解决方式一:时间复杂度为O(n^2) 解决方式二:时间复杂度为O(n) 代码实现: package string; public class SpaceStringReplace2 { //len为数 ...

随机推荐

Codeforces451A-Game With Sticks-思维
After winning gold and silver in IOI 2014, Akshat and Malvika want to have some fun. Now they are pl ...
Redis数据结构之字符串-SDS
C语言中,传统的字符串表示是以空字符结尾的字符数组,Redis的字符串没有直接使用该表示,而是选择构建了一种名为简单动态字符串(simple dynamic string, SDS)的抽象类型. 在R ...
关于Swagger @ApiModel 返回内容注释不显示问题
今天做了一天@ApiModel希望Swagger生成的文档出现返回的内容注释,发现需要用到@ApiModel注解到你需要返回的类上 @ApiModelProperty作为字段的描述例如之后文档还 ...
SYSTEM_HANDLE_TABLE_ENTRY_INFO
typedef struct _SYSTEM_HANDLE_TABLE_ENTRY_INFO { USHORT UniqueProcessId; USHORT CreatorBackTraceInde ...
springboot + zipkin + mysql
zipkin的数据存储可以存在4个地方: 内存(仅用于测试,数据不会持久化,zipkin-server关掉,数据就没有了) 这也是之前使用的 mysql 可能是最熟悉的方式 es Cassandra ...
IPC$渗透使用
简介 IPC$(Internet Process Connection)是共享"命名管道"的资源,它是为了让进程间通信而开放的命名管道,通过提供可信任的用户名和口令,连接双方可以建 ...
java oop第12章_IO、序列化和反序列化
引言:数据通常通过文件系统保存在外存中,有时需要将他们读取到程序中进行一些操作,Java针对文件系统的操作提供了一套规范,即IO,针对计算机内存而言,输入的称为输入流,输出的称为输出流. 一. ...
apache + php 无法访问redis
1.在有扩展的情况下 2.测试连接 <?php $redis=new Redis(); $redis->connect('127.0.0.1',6379); echo "succ ...
数组去重Set也可实现
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
redis安装到本地服务的方法
要安装Redis,首先要获取安装包. Windows的Redis安装包需要到以下GitHub链接找到. 链接:https://github.com/MSOpenTech/redis 打开网站后,找到R ...

Spark中的各种action算子操作（java版）

Spark中的各种action算子操作（java版）的更多相关文章

随机推荐

热门专题