java实现spark常用算子之cartesian

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
import scala.Tuple2;
import java.util.Arrays;
import java.util.List;

/**
 * cartesian 算子：
 * 相当于笛卡尔积计算，将两个RDD中的数据一一对应起来
 *
 */
public class CartesianOperator {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("cartesian");
        JavaSparkContext sc = new JavaSparkContext(conf);
        List<String> names1 = Arrays.asList("w1","w2","w3","w4");
        List<String> names2 = Arrays.asList("a1","a2","a3","a4");

        JavaRDD<String> namesRdd1 = sc.parallelize(names1);
        JavaRDD<String> namesRdd2 = sc.parallelize(names2);

        namesRdd1.cartesian(namesRdd2).foreach(new VoidFunction<Tuple2<String, String>>() {
            @Override
            public void call(Tuple2<String, String> tuple) throws Exception {
                System.err.println(tuple._1+":"+tuple._2);
            }
        });
    }
}

微信扫描下图二维码加入博主知识星球,获取更多大数据、人工智能、算法等免费学习资料哦！

java实现spark常用算子之cartesian的更多相关文章

java实现spark常用算子之Union
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之TakeSample
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之SaveAsTextFile
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之Repartitions
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之mapPartitionsWithIndex
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之map
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之intersection
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之frist
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
java实现spark常用算子之flatmap
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...

随机推荐

深入理解Vuex 模块化(module)
todo https://www.jb51.net/article/124618.htm
Java并发编程的艺术笔记（九）——FutureTask详解
FutureTask是一种可以取消的异步的计算任务.它的计算是通过Callable实现的,多用于耗时的计算. 一.FutureTask的三种状态二.get()和cancel()执行示意三.使用一 ...
vue router 如何使用params query传参，以及有什么区别
写在前面: 传参是前端经常需要用的一个操作,很多场景都会需要用到上个页面的参数,本文将会详细介绍vue router 是如何进行传参的,以及一些小细节问题.有需要的朋友可以做一下参考,喜欢的可以点波赞 ...
Zookeeper(四))持久化日志文件
Zookeeper(四))持久化日志文件持久化用途存储两种文件 snapshot:内存快照 log:事务日志,类似MySQL的binlog,存储数据节点的操作日志问题序列化的本质其实就是将原数 ...
[论文理解] Learning Efficient Convolutional Networks through Network Slimming
Learning Efficient Convolutional Networks through Network Slimming 简介这是我看的第一篇模型压缩方面的论文,应该也算比较出名的一篇吧 ...
android打包生成apk时自定义文件名版本号。自定义项目字段等等
早期的AS2.0版本左右中这样配置: app---->build.gradle中设置 applicationVariants.all { variant -> variant.output ...
Linux_Ubuntu之用户目录
位于/home/user,称之为用户工作目录或家目录,表示方式: /home/user ~
在java poi导入Excel通用工具类示例详解
转: 在java poi导入Excel通用工具类示例详解更新时间:2017年09月10日 14:21:36 作者:daochuwenziyao 我要评论这篇文章主要给大家介绍了关于在j ...
linux(centOS7)的基本操作(六) 进程管理
进程的概念 1. 在linux系统中,每一段执行的程序都称为一个进程,被分配一个进程编号(id). 2. 每个进程都对应一个父进程,一个父进程可以复制多个子进程. 3. 一个进程可能以两种方式存在:前 ...
Selenium 2自动化测试实战19（下载文件）
一.下载文件 webDriver允许设置默认的文件下载路径,也就是说,文件会自动下载并且存放到设置的目录中.下面以火狐浏览器为例,执行文件的下载. #downfile.py # -*- coding: ...

java实现spark常用算子之cartesian

java实现spark常用算子之cartesian的更多相关文章

随机推荐

热门专题