java实现spark常用算子之mapPartitions

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.VoidFunction;
import java.util.*;

/**
 * mapPartitions 算子
 * 针对partition的操作,一次会处理一个partition的所有数据
 */
public class MapPartitionsOperator {

    public static void main(String[] args){
        SparkConf conf = new SparkConf().setMaster("local").setAppName("mapPartitions");
        JavaSparkContext sc = new JavaSparkContext(conf);
        List<String> names = Arrays.asList("w1","w2","w3","w4");
        JavaRDD<String> nameRdd = sc.parallelize(names,2);

        final Map<String,Integer> scoreMap = new HashMap<>();
        scoreMap.put("w1",1);
        scoreMap.put("w2",2);
        scoreMap.put("w3",3);
        scoreMap.put("w4",4);

        JavaRDD<Integer> result = nameRdd.mapPartitions(new FlatMapFunction<Iterator<String>, Integer>() {
            private static final long serialVersionUID = 1L;

           @Override
           public Iterator<Integer> call(Iterator<String> iterator) throws Exception{
               List<Integer> list = new ArrayList<>();
               while(iterator.hasNext()){
                   String name = iterator.next();
                   int score = scoreMap.get(name);
                   list.add(score);
               }
               return list.iterator();
           }
        });

        result.foreach(new VoidFunction<Integer>() {
            @Override
            public void call(Integer integer) throws Exception {
                System.err.println("mapPartitions算子:"+integer);
            }
        });

        result.foreachPartition(new VoidFunction<Iterator<Integer>>() {
            @Override
            public void call(Iterator<Integer> integerIterator) throws Exception {
                while (integerIterator.hasNext()){
                    System.err.println("mapPartitions算子遍历:"+integerIterator.next());
                }
            }
        });

    }
}

微信扫描下图二维码加入博主知识星球,获取更多大数据、人工智能、算法等免费学习资料哦！

java实现spark常用算子之mapPartitions的更多相关文章

java实现spark常用算子之mapPartitionsWithIndex
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之Union
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之TakeSample
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之SaveAsTextFile
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之Repartitions
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之map
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之intersection
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之frist
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之flatmap
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...

随机推荐

【软件工程】Alpha冲刺（1/6）
链接部分队名:女生都队组长博客: 博客链接作业博客:博客链接小组内容恩泽(组长) 过去两天完成了哪些任务描述了解了反馈机制的实现原理确定好算法的框架对接口的规范化进行学习展示Git ...
ThinkPhp sql语句执行方法
ThinkPHP内置的ORM和ActiveRecord模式实现了方便的数据存取操作,而且新版增加的连贯操作功能更是让这个数据操作更加清晰,但是ThinkPHP仍然保留了原生的SQL查询和执行操作支持, ...
LC 656. Coin Path 【lock, Hard】
Given an array A (index starts at 1) consisting of N integers: A1, A2, ..., AN and an integer B. The ...
ASP.NET Core-Docs：在 ASP.NET Core 中启用跨域请求（CORS）
ylbtech-ASP.NET Core-Docs:在 ASP.NET Core 中启用跨域请求(CORS) 1.返回顶部 2.返回顶部 3.返回顶部 4.返回顶部 5.返回顶部 1. ...
Struts2与Servlet API的解耦访问
Cookie实战案例代码
import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Date; import javax.s ...
Nova 实现的 Fit Instance NUMA to Host NUMA 算法
目录文章目录目录前文列表 numa_fit_instance_to_host _numa_fit_instance_cell _numa_fit_instance_cell_with_pinni ...
jmeter beanShell修改http请求参数
jmeter beanShell修改http请求参数在使用jmeter进行测试时,需要对上一步响应的明文参数,如userName='tom' token='%sdf%sdkdfj'之类的参数,加密一 ...
Eclipse使用高版本的jdk编译低版本的class文件的方法
如题,在这两天使用eclipse工具编译代码时,编译出来的class文件拿UE工具查看,版本为1.8版本的,而本地使用的tomcat版本是1.6的,运行中报错Unsupported major.min ...
03 vue项目结构
上一篇已介绍根据vue-cli创建项目,本篇介绍根据vue-cli官方脚手架创建的项目的项目结构. 一.图看结构 build [webpack配置] webpack相关配置,都已经配 ...

java实现spark常用算子之mapPartitions

java实现spark常用算子之mapPartitions的更多相关文章

随机推荐

热门专题