使用java开发spark的wordcount程序（多种实现）

package spark;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.SparkSession;

import scala.Tuple2;

import java.util.Arrays;

import java.util.List;

/**

 * Created by kkxwz on 2018/5/24

 */

public class WordCountApp {

    public static void main(String[] args) {

//        //spark 2.0版本之前

//        SparkConf sparkConf = new SparkConf().setAppName("WordCountApp").setMaster("local[2]");

//        JavaSparkContext spark = new JavaSparkContext(sparkConf);

//        JavaRDD<String> lines= spark.textFile("/Users/zl/data/sparksqldata/hello.txt");

//        spark 2.0版本之后（建议）

        SparkSession spark = SparkSession.builder()

                .master("local[2]")

                .appName("WordCountApp")

                .getOrCreate();

        JavaRDD<String> lines= spark.read().textFile("/Users/zl/data/sparksqldata/hello.txt").javaRDD();

        JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split("\t")).iterator());

        JavaPairRDD<String, Integer> counts = words

                .mapToPair(word -> new Tuple2<String, Integer>(word, 1))

                .reduceByKey((x, y)-> x+y);

        //第一种输出方式：

        counts.foreach(count -> System.out.println(count._1() + ":" + count._2()));

        //第二种输出方式：

//        List<Tuple2<String, Integer>> output = counts.collect();

//

//        for(Tuple2<String, Integer> tuple : output){

//            System.out.println(tuple._1() + ":" + tuple._2());

//        }

        spark.stop();

    }

}

//　PS：

//   1、jdk版本至少为1.8

//   2、最好关联源码，查看返回类型学习！！！

使用java开发spark的wordcount程序（多种实现）的更多相关文章

编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6 ...
[转] 用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? [sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需 ...
用SBT编译Spark的WordCount程序
问题导读: 1.什么是sbt? 2.sbt项目环境如何建立? 3.如何使用sbt编译打包scala? sbt介绍 sbt是一个代码编译工具,是scala界的mvn,可以编译scala,java等,需要 ...
在IDEA中编写Spark的WordCount程序
1:spark shell仅在测试和验证我们的程序时使用的较多,在生产环境中,通常会在IDE中编制程序,然后打成jar包,然后提交到集群,最常用的是创建一个Maven项目,利用Maven来管理jar包 ...
spark运行wordcount程序
首先提一下spark rdd的五大核心特性: 1.rdd由一系列的分片组成,比如说128m一片,类似于hadoop中的split2.每一个分区都有一个函数去迭代/运行/计算3.一系列的依赖,比如:rd ...
使用Java开发桌面即时通讯程序遇到的问题
项目:https://www.lking.top/?p=87 1. JPanel面板绘制背景图片问题. 参考大佬:https://www.jb51.net/article/101516.htm 本项目 ...
用java开发的网站或者程序
中国移动的官网即其相关业务系统阿里巴巴.淘宝网 58同城是java做的后台铁道部12306 腾讯的拍拍网等各大银行的交互应用系统,比如有的信用卡网银另外,Android手机的大部分应用,其他智 ...
java开发之发牌小程序
发牌规则黑桃按照从小到大依次为:1-13 红桃按照从小到大依次为:14-26 梅花按照从小到大依次为:27-39 方块按照从小到大依次为:40-52 小王53 大王54 代码实现: packag ...
Spark练习之通过Spark Streaming实时计算wordcount程序
Spark练习之通过Spark Streaming实时计算wordcount程序 Java版本 Scala版本 pom.xml Java版本 import org.apache.spark.Spark ...

随机推荐

CentOS6.3上搭建expect无交互开发环境
1.背景在面向shell编程时对于需要交互的场合则必须通过人工来干预,而对于这种方式是违反无人职守的原则:现在expect就解决了这个问题, Expect是一个免费的编程工具语言,用来实现自动和交互 ...
[C++] C语言及C++语言中包含的头文件名称,及作用
头文件主目录include 头文件目录中总共有32个.h头文件.其中主目录下有13个,asm子目录中有4个,linux子目录中有10个,sys子目录中有5个.这些头文件各自的功能如下,具体的作用和所包 ...
软件工程小组讨论设计NABCD
项目名称:失物招领平台项目工作小组:冰淇淋队项目简介:目前同学们丢了东西都qq空间转发或者某个特定的qq群发消息,qq空间转发浪费了别人的时间,qq群发消息也浪费了别人的时间.怎么样才能浪费最少的 ...
IO分类
按流向分类: 输入流读取数据 FileReader Reader 输出流写入数据 FileWriter Writer 按数据类型分类: 字节流字节输入流读取数据 InputStream 字节输 ...
Excel VBA ——如何导出数据到excel表格
sub OutPut() Dim FileTitle, MyPath, MyFullName As String Application.ScreenUpdating = false '关闭表格公式的 ...
Java学习笔记（二十四）：单例设计模式singleton
为什么要使用singleton设计模式? 假设设计了一个操作数组的工具类(Tools),里面有一个锤子的方法(Hammer),如果不使用singleton设计模式,每次想调用Hammer方法都需要ne ...
Nancy.Net之旅-探索模块
探索Nancy模块模块是任何Nancy应用程序中的主角,因为它是您定义应用程序行为的地方,所以无法避免使用它. 事实上,在任何的Nancy应用程序中,声明模块是最基本的要求. 通过继承NancyMo ...
css: box-sizing
border-box 宽度包含了边框 content-box 边框不包含在内容区中,会增加到实际的宽度中
我在Python学习中遇到的问题一
开发工具:PyCharm 系统:macOs Serria 10.12.4 jetbrains出品,作为和idea一个公司的兄弟产品,延续了idea的易用性,并且操作按钮也基本一致一. 执行环境问题 ...
机器学习--Lasso回归和岭回归
之前我们介绍了多元线性回归的原理, 又通过一个案例对多元线性回归模型进一步了解, 其中谈到自变量之间存在高度相关, 容易产生多重共线性问题, 对于多重共线性问题的解决方法有: 删除自变量, 改变数据形 ...

使用java开发spark的wordcount程序（多种实现）

使用java开发spark的wordcount程序（多种实现）的更多相关文章

随机推荐

热门专题