java实现spark常用算子之cogroup

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;
import java.util.Arrays;
import java.util.List;

/**
 *  cogroup(otherDataSet,[numTasks]) 算子：
 *  将两个RDD中的数据按照key进行汇总：
 *      第一个RDD按照key进行汇总，结果放在iterable中。
 *      第二个RDD同样按照key进行汇总，结果放在另一个iterable中。
 *      最后得到一个key和两个iterable的数据。
 */
public class CogroupOperator {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("cogroup");
        JavaSparkContext sc = new JavaSparkContext(conf);
        List<Tuple2<String,String>> stus = Arrays.asList(
                new Tuple2<>("w1","z1"),
                new Tuple2<>("w2","z2"),
                new Tuple2<>("w3","z3"),
                new Tuple2<>("w2","z2"),
                new Tuple2<>("w1","z1")
        );
        List<Tuple2<String,String>> scores = Arrays.asList(
                new Tuple2<>("w1","100"),
                new Tuple2<>("w2","10"),
                new Tuple2<>("w3","1"),
                new Tuple2<>("w2","90"),
                new Tuple2<>("w1","900")
        );
        JavaPairRDD<String,String> stusrdd = sc.parallelizePairs(stus);
        JavaPairRDD<String,String> scorerdd = sc.parallelizePairs(scores);

        JavaPairRDD<String,Tuple2<Iterable<String>,Iterable<String>>> result = stusrdd.cogroup(scorerdd,2);

        result.foreach(new VoidFunction<Tuple2<String, Tuple2<Iterable<String>, Iterable<String>>>>() {
            @Override
            public void call(Tuple2<String, Tuple2<Iterable<String>, Iterable<String>>> tuple) throws Exception {
                System.err.println("key:"+tuple._1+",另外两个iterable中的数据:"+tuple._2);
            }
        });
    }
}

微信扫描下图二维码加入博主知识星球,获取更多大数据、人工智能、算法等免费学习资料哦！

java实现spark常用算子之cogroup的更多相关文章

java实现spark常用算子之Union
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之TakeSample
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之SaveAsTextFile
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之Repartitions
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之mapPartitionsWithIndex
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之map
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之intersection
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之frist
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之flatmap
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...

随机推荐

iview之avatar组件
avatar组件是一个获取网络路径图片的组件它再vue中使用的话build时不会被打包,路径仍然为原来的路径所以相对路径不会有效如下: <Avatar style="margin ...
[CSP-S模拟测试]:开心的金明（贪心+模拟）
题目传送门(内部题117) 输入格式第一行一个整数$k$,表示需要处理的月份数. 接下来的$k$行,每行$4$个整数,第$1+i$行分别为:$c_i,d_i,m_i,p_i$ 接下来的$k-1$行, ...
分布式-信息方式-ActiveMQ结合Spring
ActiveMQ结合 Spring开发■ Spring提供了对JMS的支持,需要添加 Spring支持jms的包,如下: <dependency> <groupId>org.a ...
Hibernate与MyBaits的区别？
(1)Hibernate是全自动,而myBatis是半自动,Hibernate完全可以通过对象关系模型实现对数据库的操作,拥有完整的JavaBean对象与数据库的映射结构来自动生成SQL.而myBat ...
IDEA 无法自动导入相关Maven jar包
仔细看看项目右边有个很骚的"Maven Projects"按钮,点击一下再点击这个刷新按钮,现在知道技术为何物了吗?
第六周&实验四
二.实验的内容 (1)根据下面的要求实现圆类Circle. 1.圆类Circle的成员变量:radius表示圆的半径. 2.圆类Circle的方法成员: Circle():构造方法,将半径置0 Cir ...
laravel 发送html邮件是a标签中的url不显示问题
spark streaming 3: Receiver 到 submitJobSet
对于spark streaming来说,receiver是数据的源头.spark streaming的框架上,将receiver替换spark-core的以磁盘为数据源的做法,但是数据源(如监听某个 ...
loadrunner事务判断常用方法
//判断关联到的字符串是否为空 if (strlen(lr_eval_string("{param}")) == 0); //判断关联的字符串是否跟期望的值相同 if(strcmp ...
leetcode 29两数相除
我理解本题是考察基于加减实现除法,代码如下: class Solution { public: //只用加减号实现除法, //不用加减号实现除法: int divide(int dividend, i ...

java实现spark常用算子之cogroup

java实现spark常用算子之cogroup的更多相关文章

随机推荐

热门专题