java实现spark常用算子之groupbykey


import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;

import java.util.Arrays;
import java.util.List;

/**
 * groupbykey([numTasks]) 算子：
 * 将rdd中的算子按照key进行分组操作，所有的key对应的是一个iterable
 * 可以设置并行度,如果没有设置并行默认与父RDD保持一直，也就是父RDD有多少partitions，它的并行度就是多少
 * 是对RDD中的所有数据做shuffle,根据不同的Key映射到不同的partition中再进行aggregate
 */
public class GroupByKeyOperator {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("groupbykey");
        JavaSparkContext sc = new JavaSparkContext(conf);
        List<Tuple2<String,String>> list = Arrays.asList(
                new Tuple2("W1","1"),
                new Tuple2("W2","2"),
                new Tuple2("W3","3"),
                new Tuple2("W2","22"),
                new Tuple2("W1","11")
                );
        JavaPairRDD<String,String> listRdd = sc.parallelizePairs(list,2);

        JavaPairRDD<String,Iterable<String>> result = listRdd.groupByKey(3);

        result.foreach(new VoidFunction<Tuple2<String, Iterable<String>>>() {
            @Override
            public void call(Tuple2<String, Iterable<String>> stringIterableTuple2) throws Exception {
                System.err.println(stringIterableTuple2._1+":"+stringIterableTuple2._2);
            }
        });
    }
}

微信扫描下图二维码加入博主知识星球,获取更多大数据、人工智能、算法等免费学习资料哦！

java实现spark常用算子之groupbykey的更多相关文章

java实现spark常用算子之Union
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之TakeSample
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之SaveAsTextFile
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之Repartitions
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之mapPartitionsWithIndex
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之map
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之intersection
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之frist
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之flatmap
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...

随机推荐

git *** Please tell me who you are.错误
GIT 中提示 please tell me who you are 如果使用git过程中出现了,please tell me who you are ,需要设置一下使用者的身份. 1.git c ...
Note 2 for <Pratical Programming : An Introduction to Computer Science Using Python 3>
Book Imformation : <Pratical Programming : An Introduction to Computer Science Using Python 3> ...
yum源安装mysql数据库添加密码
学习mysql数据库时,安装的问题一直很烦恼,linux的不同版本的安装方式都可能不同,这里是我学习时的一些总结.也是刚刚开始学习,大佬勿喷,谢谢啦!!! 1.查看是否已经安装 2.如果没安装 yum ...
浏览器端-W3School-HTML：HTML DOM Textarea 对象
ylbtech-浏览器端-W3School-HTML:HTML DOM Textarea 对象 1.返回顶部 1. HTML DOM Textarea 对象 Textarea 对象 Textarea ...
Message 消息提示
常用于主动操作后的反馈提示.与 Notification 的区别是后者更多用于系统级通知的被动提醒. 基础用法从顶部出现,3 秒后自动消失. Message 在配置上与 Notification 非 ...
Hibernate查询总的记录数
1. 原生sql String hql="select count(*) from product" ;//此处的product是数据库中的表名 Query query=sessi ...
brew update 很慢
brew使用国内镜像源这里用中科大的,另外还有清华的可用 # 步骤一 cd $(brew --repo) git remote set-url origin https://mirrors.tuna ...
C++ 学习笔记整理
目录 STL 容器 set的用法简介 unordered_set 变量类型转换 stringstream 类型转换数据结构哈希表日常小技巧 C++输入输出流加速器,关闭同步流,ios::sync ...
Redis 高级应用
Redis SAVE 命令用于创建当前数据库的备份该命令将在 redis 安装目录中创建dump.rdb文件. 如果需要恢复数据,只需将备份文件 (dump.rdb) 移动到 redis 安装目录并 ...
ansible使用sudo
方式一. 1.配置资源清单inventory文件 [root@test1 ~]# cat >/etc/ansible/hosts <<EOF [k8s] 192.168.0.92 a ...

java实现spark常用算子之groupbykey

java实现spark常用算子之groupbykey的更多相关文章

随机推荐

热门专题