spark cogroup算子

java

 /**

  *cogroup与join算子不同的是如果rdd中的一个key,对应多个value,则返回<Iterable<key>,Iterable<value>>

  *@author Tele

  */

 public class CogroupDemo {

     private static SparkConf conf = new SparkConf().setMaster("local").setAppName("congroupdemo");

     private static JavaSparkContext jsc = new JavaSparkContext(conf);

     public static void main(String[] args) {

         //每个学生有多门成绩

         List<Tuple2<Integer,String>> studentList = Arrays.asList(

                                                     new Tuple2<Integer,String>(1,"tele"),

                                                     new Tuple2<Integer,String>(1,"xx"),

                                                     new Tuple2<Integer,String>(2,"yeye"),

                                                     new Tuple2<Integer,String>(3,"wyc")

                                                    );

         List<Tuple2<Integer,Integer>> scoreList = Arrays.asList(

                                                   new Tuple2<Integer,Integer>(1,100),

                                                   new Tuple2<Integer,Integer>(1,110),

                                                   new Tuple2<Integer,Integer>(1,120),

                                                   new Tuple2<Integer,Integer>(2,90),

                                                   new Tuple2<Integer,Integer>(2,60),

                                                   new Tuple2<Integer,Integer>(2,50),

                                                   new Tuple2<Integer,Integer>(3,70),

                                                   new Tuple2<Integer,Integer>(3,70)

                                                   );

         JavaPairRDD<Integer, String> studentRDD = jsc.parallelizePairs(studentList);

         JavaPairRDD<Integer, Integer> scoreRDD = jsc.parallelizePairs(scoreList);

         JavaPairRDD<Integer, Tuple2<Iterable<String>, Iterable<Integer>>> result = studentRDD.cogroup(scoreRDD);

         result.foreach(new VoidFunction<Tuple2<Integer,Tuple2<Iterable<String>,Iterable<Integer>>>>() {

             private static final long serialVersionUID = 1L;

             @Override

             public void call(Tuple2<Integer, Tuple2<Iterable<String>, Iterable<Integer>>> t) throws Exception {

                 System.out.println("学号:" + t._1);

                 System.out.println("姓名:" + t._2._1);

                 System.out.println("成绩:" + t._2._2);

             /*    System.out.print("成绩:[");

                 t._2._2.forEach(i->System.out.print(i + ","));

                 System.out.println("]");

                 System.out.println("====================");*/

             }

         });

         jsc.close();

     }

 }

scala

 object CogroupDemo {

     def main(args: Array[String]): Unit = {

         val conf = new SparkConf().setMaster("local").setAppName("cogroupdemo");

         val sc = new SparkContext(conf);

         val studentArr = Array((1,"tele"),(2,"yeye"),(3,"wyc"));

         val scoreArr = Array((1,100),(1,200),(2,80),(2,300),(3,100));

         val studentRDD = sc.parallelize(studentArr,1);

         val scoreRDD = sc.parallelize(scoreArr,1);

         val result = studentRDD.cogroup(scoreRDD);

         result.foreach(t=>{

           println("学号:" + t._1);

           println("姓名:" + t._2._1.mkString(" "));

           println("成绩:" + t._2._2.mkString(","));

           println("============");

         })

     }

 }

spark cogroup算子的更多相关文章

Spark RDD概念学习系列之Spark的算子的分类（十一）
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理. Transformat ...
Spark常用算子-KeyValue数据类型的算子
package com.test; import java.util.ArrayList; import java.util.List; import java.util.Map; import or ...
Spark操作算子本质-RDD的容错
Spark操作算子本质-RDD的容错spark模式1.standalone master 资源调度 worker2.yarn resourcemanager 资源调度 nodemanager在一个集群 ...
Spark RDD概念学习系列之Spark的算子的作用（十四）
Spark的算子的作用首先,关于spark算子的分类,详细见 http://www.cnblogs.com/zlslch/p/5723857.html 1.Transformation 变换/转换算 ...
java实现spark常用算子之cogroup
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spa ...
列举spark所有算子
一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可 ...
spark常用算子总结
算子分为value-transform, key-value-transform, action三种.f是输入给算子的函数,比如lambda x: x**2 常用算子: keys: 取pair rdd ...
Spark RDD 算子总结
Spark算子总结算子分类 Transformation(转换) 转换算子含义 map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 filter(func) ...
Spark 初级算子
#常用Transformation(即转换,延迟加载) #通过并行化scala集合创建RDD val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8)) #查看 ...

随机推荐

C/S与B/S架构比较
一C/S 1.C/S概念 C/S是Client/Server的缩写.服务器通常采用高性能的PC.工作站或小型机,并采用大型数据库系统,如Oracle.Sybase.Informix或 SQL Serv ...
Codeforces 232A - Cycles (构造 + 思维)
题目链接: 232A - Cycles(点击打开) 题意: 要构成一个存在 \(k\) 个三元环的图,需要多少个点,输出顶点数 \(n\),并输出图. 题解: 题目中的任何图都可以用 \(90\)~ ...
关于javascript中私有作用域的预解释
1.如何区分私有变量还是全局变量 1).在全局作用域下声明(预解释的时候)的变量是全局变量 2).在“私有作用域中声明的变量”和“函数的形参”都是私有变量在私有作用域中,我们代码执行的时候遇到一个变 ...
jmeter--错误之Not able to find Java executable or version. Please check your Java installation. errorlevel=2
学习jmeter中遇到的问题: 'findstr' 不是内部或外部命令,也不是可运行的程序或批处理文件. Not able to find Java executable or version. Pl ...
装饰模式和python装饰器
装饰器和装饰模式先给出两者的定义: - 装饰器:装饰器是一个非常著名的设计模式,常常被用于有切面需求的场景.较为经典的有插入日志.性能測试.事务处理等. 装饰器是解决这类问题的绝佳设计.有了装饰器, ...
percona-toolkit源码编译安装
安装依赖软件yum install perl-ExtUtils-CBuilder perl-ExtUtils-MakeMakeryum install perl-Time-HiRes perl-DB ...
CSS布局开篇
原文: 简书原文:https://www.jianshu.com/p/2c78b927f8c4 开篇这是我写CSS布局的第一篇文章,之所以将布局从中摘出来单独放一部分是因为我觉得光是布局这块内容就有 ...
HDU 3974 Assign the task 并查集
http://acm.hdu.edu.cn/showproblem.php?pid=3974 题目大意: 一个公司有N个员工,对于每个员工,如果他们有下属,那么他们下属的下属也是他的下属. 公司会给员 ...
关于Topsort
Long time no see. 拓扑排序英文名称:Topological-sort 别称:toposort or topsort 拓扑排序是干什么的呢对一个有向无环图(Directed Ac ...
原生js螺旋运动
window.onload=function(){ var oSpiral=document.getElementById('spiral'); var oUl=oSpiral.getElements ...

spark cogroup算子

spark cogroup算子的更多相关文章

随机推荐

热门专题