spark jdk8 单词统计示例

在github上有spark-java8 实例地址：

https://github.com/ypriverol/spark-java8

https://github.com/ihr/java8-spark

学些java8 Lambda Expressions 的可以参考下，同时自己也做下比较。

java8 代码实例

 /*

  * Licensed to the Apache Software Foundation (ASF) under one or more

  * contributor license agreements.  See the NOTICE file distributed with

  * this work for additional information regarding copyright ownership.

  * The ASF licenses this file to You under the Apache License, Version 2.0

  * (the "License"); you may not use this file except in compliance with

  * the License.  You may obtain a copy of the License at

  *

  *    http://www.apache.org/licenses/LICENSE-2.0

  *

  * Unless required by applicable law or agreed to in writing, software

  * distributed under the License is distributed on an "AS IS" BASIS,

  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

  * See the License for the specific language governing permissions and

  * limitations under the License.

  */  

 package com.east.spark.stream;  

 import java.util.Arrays;

 import java.util.List;

 import java.util.regex.Pattern;  

 import org.apache.spark.api.java.JavaPairRDD;

 import org.apache.spark.api.java.JavaRDD;

 import org.apache.spark.sql.SparkSession;  

 import scala.Tuple2;  

 public final class JavaWordCount2 {

     private static final Pattern SPACE = Pattern.compile(" ");  

     public static void main(String[] args) throws Exception {  

         args = new String[] { "D:/tmp/spark/test.txt" };  

         if (args.length < 1) {

             System.err.println("Usage: JavaWordCount <file>");

             System.exit(1);

         }  

         SparkSession spark = SparkSession.builder().appName("JavaWordCount").master("local").getOrCreate();  

         // SparkConf conf = new

         // SparkConf().setAppName("ingini-spark-java8").setMaster("local");  

         JavaRDD<String> lines = spark.read().textFile(args[0]).javaRDD();  

         JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split(" ")).iterator());  

         JavaPairRDD<String, Integer> counts = words.mapToPair(w -> new Tuple2<String, Integer>(w, 1))

                 .reduceByKey((x, y) -> x + y);

         // counts.collect();  

         List<Tuple2<String, Integer>> output = counts.collect();

         for (Tuple2<?, ?> tuple : output) {

             System.out.println(tuple._1() + ":== " + tuple._2());

         }  

         spark.stop();

     }

 }

更简洁的写法：

 JavaRDD<String> lines = sc.textFile("src/main/resources/a.txt");

         JavaPairRDD<String, Integer> counts = lines.flatMap(line -> Arrays.asList(line.split(REGEX)))

                 .mapToPair(word -> new Tuple2(word, 1))

                 .reduceByKey((x, y) -> (Integer) x + (Integer) y)

                 .sortByKey();

         counts.foreach(stringIntegerTuple2 ->System.out.println( stringIntegerTuple2._1+":"+stringIntegerTuple2._2));

spark jdk8 单词统计示例的更多相关文章

spark复习笔记(3)：使用spark实现单词统计
wordcount是spark入门级的demo,不难但是很有趣.接下来我用命令行.scala.Java和python这三种语言来实现单词统计. 一.使用命令行实现单词的统计 1.首先touch一个a. ...
Storm基础概念与单词统计示例
Storm基本概念 Storm是一个分布式的.可靠地.容错的数据流处理系统.Storm分布式计算结构称为Topology(拓扑)结构,顾名思义,与拓扑图十分类似.该拓扑图主要由数据流Stream.数据 ...
scala基本语法和单词统计
scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
Spark入门（三）--Spark经典的单词统计
spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著<GoneWithTheWind>(<飘>)的文本来做一个数据统计,看 ...
MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
ytu 2002:C语言实验——单词统计（水题）
C语言实验——单词统计 Time Limit: 1 Sec Memory Limit: 64 MBSubmit: 61 Solved: 34[Submit][Status][Web Board] ...
hive学习之WordCount单词统计
看hive目录下就可以了,程序在hdfs里创建一个hive的大文件夹,相当于数据库吧.上面就是一个完整的利用hive来做单词统计,其中的优劣也能看出一点.
运行spark官方的graphx 示例 ComprehensiveExample.scala报错解决
运行spark官方的graphx 示例 ComprehensiveExample.scala报错解决在Idea中,直接运行ComprehensiveExample.scala,报需要指定master ...

随机推荐

NX二次开发-UFUN工程图表格注释检索默认单元格首选项UF_TABNOT_ask_default_cell_prefs
NX9+VS2012 #include <uf.h> #include <uf_tabnot.h> #include <NXOpen/Part.hxx> #incl ...
2.RabbitMQ Window环境安装
RabbitMQ环境的安装分别介绍在Window和Linux下两个环境的安装过程. Window安装RabbitMQ,RabbitMQ安装文件是64位的,所以Window系统必须是64位的.安装R ...
spring boot jpa没有自动生成表的原因——加上@Entity
别人的项目弄了好久,竟然是忘记加注解,当然配置文件还是要配置jpa的,pom也要依赖jpa. @Entity jpa: hibernate: ddl-auto: update show-sql: tr ...
mysql查看数据库大小或者表大小
要想知道每个数据库的大小的话,步骤如下: 1.进入information_schema 数据库(存放了数据库的信息) use information_schema; 2.查询所有数据库的大小: sel ...
sizeof，真正终结版GCC与VC
在VC6.0中sizeof结果是16.我电脑上装了个linux虚拟机,在虚拟机上GCC中结果是12, 恩不同编译器默认对齐数值不一样. VC 默认为 8 gcc 默认为 4 有个编译参数控制对齐. # ...
Unity 如何修改 particle system 的 start color 属性
代码如下: ParticleSystem ps = GetComponent<ParticleSystem>(); var main = ps.main; var color = Colo ...
kubeadm 安装k8s
环境要求: 机器名 ip地址 cpu和内存要求 kubernetes-master 10.0.0.11 2c2g(关闭swap) kubernetes-node1 10.0.0.12 2c2g(关闭s ...
好消息：Dubbo & Spring Boot要来了
Duboo和Spring Boot都是非常优秀的框架,现在它们要结合了.为了简化Dubbo开发集成,阿里Dubbo团队将发布基于Spring Boot的版本,可快速上手Dubbo的分布式开发,并提供了 ...
7-MySQL高级-主从-1
1. 主从同步的定义主从同步使得数据可以从一个数据库服务器复制到其他服务器上,在复制数据时,一个服务器充当主服务器(master),其余的服务器充当从服务器(slave). 因为复制是异步进行的,所 ...
POJ 3667 线段树区间合并裸题
题意:给一个n和m,表示n个房间,m次操作,操作类型有2种,一种把求连续未租出的房间数有d个的最小的最左边的房间号,另一个操作时把从x到x+d-1的房间号收回. 建立线段树,值为1表示未租出,0为租出 ...

spark jdk8 单词统计示例

spark jdk8 单词统计示例的更多相关文章

随机推荐

热门专题