引入:spark-scala-java实现wordcount

1.spark-scala实现wordcount

package com.cw.scala.spark

import org.apache.spark.{SparkConf, SparkContext}

/**

  * spark wordcount

  * hello java

  * hello java

  * hello spark

  * *

  * flatMap:

  * hello

  * java

  * hello

  * java

  * hello

  * spark

  * *

  * map:

  * (hello,1)

  * (java,1)

  * (hello,1)

  * (java,1)

  * (hello,1)

  * (spark,1)

  *

  * reduceByKey:将相同的key先分组,再针对每一个组去计算,对每一个组内的value计算

  * 先分组

  * (hello,1)

  * (hello,1)

  * (hello,1)

  *

  * (java,1)

  * (java,1)

  *

  * (spark,1)

  */

object SparkWC {

  def main(args: Array[String]): Unit = {

    //conf可以设置SparkApplication的名称,设置Spark运行的模式

    val conf = new SparkConf().setAppName("wordcount").setMaster("local")

    //SparkContext是通往spark集群的唯一通道

    val sc = new SparkContext(conf)

    //sc.textFiles(path) 能将path里的所有文件内容读出，以文件中的每一行作为一条记录的方式

    sc.textFile("./data/words").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).foreach(println)//这行代码要记住

    sc.stop()

    //    //conf可以设置SparkApplication的名称,设置Spark运行的模式

    //    val conf = new SparkConf()

    //    conf.setAppName("wordcount")

    //    conf.setMaster("local")

    //    //SparkContext是通往spark集群的唯一通道

    //    val sc = new SparkContext(conf)

    //

    //    val lines: RDD[String] = sc.textFile("./data/words")

    //    //flatMap

    //    val words: RDD[String] = lines.flatMap(line => {

    //      line.split(" ")

    //    })

    //    //KV:二元组

    //    val pairWords: RDD[(String, Int)] = words.map(word => {

    //      new Tuple2(word, 1)

    //    })

    //    //将相同的key先分组,再针对每一个组去计算,对每一个组内的value计算

    //    val result: RDD[(String, Int)] = pairWords.reduceByKey((v1: Int, v2: Int) => {

    //      v1 + v2

    //    })

    //    result.foreach(one => {

    //      println(one)

    //    })

    //    sc.stop()

  }

}

详细版本

package com.cw.scala.spark

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object SparkWC {

  def main(args: Array[String]): Unit = {

    //conf可以设置SparkApplication的名称,设置Spark运行的模式

    val conf = new SparkConf()

    conf.setAppName("wordcount")

    conf.setMaster("local")

    //SparkContext是通往spark集群的唯一通道

    val sc = new SparkContext(conf)

    //sc.textFiles(path) 能将path里的所有文件内容读出，以文件中的每一行作为一条记录的方式

    val lines: RDD[String] = sc.textFile("./data/words")

    lines.foreach(println)

    //count:返回数据集中的元素数。会在结果计算完成后回收到Driver端。

    val l: Long = lines.count()

    println(l)

    //take(num):返回一个包含数据集前n个元素的集合。

    val strings: Array[String] = lines.take(3)

    strings.foreach(println)

    //first:first=take(1),返回数据集中的第一个元素。

    val str: String = lines.first()

    println(str)

    //flatMap:先map后flat。与map类似，每个输入项可以映射为0到多个输出项。

    val words: RDD[String] = lines.flatMap(line => {

      line.split(" ")

    })

    words.foreach(println)

    //map:将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。

    val pairWords: RDD[(String, Int)] = words.map(word => {

      new Tuple2(word, 1)

    })

    pairWords.foreach(println)

    //reduceByKey:将相同的key先分组,再针对每一个组去计算,对每一个组内的value计算

    val result: RDD[(String, Int)] = pairWords.reduceByKey((v1: Int, v2: Int) => {

      v1 + v2

    })

    //foreach:循环遍历数据集中的每个元素，运行相应的逻辑。

    result.foreach(println)

    sc.stop()

  }

}

=======================运行结果========================

//textFile:能将path里的所有文件内容读出，以文件中的每一行作为一条记录的方式

hello java

hello spark

hello hadoop

hello mr

hello java

hello spark

hello scala

hello mr

//count:返回数据集中的元素数。会在结果计算完成后回收到Driver端。

8

//take(3):返回一个包含数据集前n个元素的集合。

hello java

hello spark

hello hadoop

//first:返回数据集中的第一个元素。

hello java

//flatMap:先map后flat。与map类似，每个输入项可以映射为0到多个输出项。

hello

java

hello

spark

hello

hadoop

hello

mr

hello

java

hello

spark

hello

scala

hello

mr

//map:将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。

(hello,1)

(java,1)

(hello,1)

(spark,1)

(hello,1)

(hadoop,1)

(hello,1)

(mr,1)

(hello,1)

(java,1)

(hello,1)

(spark,1)

(hello,1)

(scala,1)

(hello,1)

(mr,1)

//reduceByKey:将相同的key先分组,再针对每一个组去计算,对每一个组内的value计算

(scala,1)

(spark,2)

(hadoop,1)

(mr,2)

(hello,8)

(java,2)

2.spark-java实现wordcount

package com.cw.java.spark;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.api.java.function.VoidFunction;

import scala.Tuple2;

import java.util.Arrays;

import java.util.Iterator;

public class SparkWordCount {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf();

        conf.setMaster("local");

        conf.setAppName("wc");

        JavaSparkContext sc = new JavaSparkContext(conf);

        //sc.textFiles(path) 能将path 里的所有文件内容读出，以文件中的每一行作为一条记录的方式，

        JavaRDD<String> lines = sc.textFile("./data/words");

        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

            @Override

            public Iterator<String> call(String line) throws Exception {

                return Arrays.asList(line.split(" ")).iterator();

            }

        });

        JavaPairRDD<String, Integer> pairWords = words.mapToPair(new PairFunction<String, String, Integer>() {

            @Override

            public Tuple2<String, Integer> call(String s) throws Exception {

                return new Tuple2<>(s, 1);

            }

        });

        /**

         * new Function2<Integer, Integer, Integer>() 如在(hello,1) (hello,1) (hello,1) 第一个hello为1赋给v1,第二个hello为1赋给v2,返回结果v1+v2=2

         * 下一条将2自动赋给v1,第三个hello的1赋给v2 返回v1+v2=3

         */

        JavaPairRDD<String, Integer> result = pairWords.reduceByKey(new Function2<Integer, Integer, Integer>() {

            @Override

            public Integer call(Integer v1, Integer v2) throws Exception {

                return v1 + v2;

            }

        });

        result.foreach(new VoidFunction<Tuple2<String, Integer>>() {

            @Override

            public void call(Tuple2<String, Integer> tp) throws Exception {

                System.out.println(tp);

            }

        });

        sc.stop();

    }

}

spark-scala-java实现wordcount的更多相关文章

Spark：用Scala和Java实现WordCount
http://www.cnblogs.com/byrhuangqiang/p/4017725.html 为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境.IDEA确实很优秀,学会 ...
Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐)
福利 => 每天都推送欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 Java全栈大联盟 ...
Spark scala和java的api使用
1.利用scala语言开发spark的worcount程序(本地运行) package com.zy.spark import org.apache.spark.rdd.RDD import org. ...
Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序
学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程. 本项目源码已托管于Github –>[Spark-wordcount] 第一步在EclipseIDE中安装Scala插件 ...
梯度迭代树（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details ...
Spark机器学习1·编程入门(scala/java/python)
Spark安装目录 /Users/erichan/Garden/spark-1.4.0-bin-hadoop2.6 基本测试 ./bin/run-example org.apache.spark.ex ...
demo1 spark streaming 接收 kafka 数据java代码WordCount示例
1. 首先启动zookeeper windows上的安装见zk 02之 Windows安装和使用zookeeper 启动后见: 2. 启动kafka windows的安装kafka见Windows上搭 ...
Spark使用Java、Scala 读取mysql、json、csv数据以及写入操作
Spark使用Java读取mysql数据和保存数据到mysql 一.pom.xml 二.spark代码 2.1 Java方式 2.2 Scala方式三.写入数据到mysql中四.DataFrame ...
spark之java程序开发
spark之java程序开发 1.Spark中的Java开发的缘由: Spark自身是使用Scala程序开发的,Scala语言是同时具备函数式编程和指令式编程的一种混血语言,而Spark源码是基于Sc ...
Spark（一）wordcount
Spark(一)wordcount 一.新建一个scala项目在maven中导入 <!-- https://mvnrepository.com/artifact/org.apache.spar ...

随机推荐

洛谷 U5122 T2-power of 2(费马小定理)
U5122 T2-power of 2 题目提供者胡昊题目描述是一个十分特殊的式子. 例如: n=0时 =2 然而,太大了所以,我们让对10007 取模输入输出格式输入格式: n 输出格式: ...
selenium-爬取小说
selenium-爬取小说 1 import requests 2 from bs4 import BeautifulSoup 3 import sys 4 from selenium import ...
2016 Multi-University Training Contest 3 部分题解
1001,只要枚举区间即可.签到题,要注意的是输入0的话也是“TAT”.不过今天补题的时候却WA了好几次,觉得奇怪.原来出现在判断条件那里,x是一个int64类型的变量,在进行(x<65536* ...
Zookeeper系列（十一）zookeeper的Leader选举详解（核心之一）
作者:leesf 掌控之中,才会成功:掌控之外,注定失败. 出处:http://www.cnblogs.com/leesf456/p/6107600.html尊重原创,奇文共欣赏: 一.前言前 ...
qt 元对象系统
元对象系统 Qt中的元对象系统是用来处理对象间通讯的信号/槽机制.运行时的类型信息和动态属性系统. 它基于下列三类: QObject类: 类声明中的私有段中的Q_OBJECT宏: 元对象编译器(mo ...
C# Read/Write another Process' Memory
https://codingvision.net/security/c-read-write-another-process-memory Today’s tutorial is about…proc ...
GC垃圾回收 | 深入理解G1垃圾收集器和GC日志
来源:并发编程网链接:http://ifeve.com/深入理解G1垃圾收集器/ G1 GC是Jdk7的新特性之一.Jdk7+版本都可以自主配置G1作为JVM GC选项:作为JVM GC算法的一次重大 ...
UTC ISO 8601
如果时间在零时区,并恰好与协调世界时相同,那么(不加空格地)在时间最后加一个大写字母Z.Z是相对协调世界时时间0偏移的代号.如下午2点30分5秒表示为14:30:05Z或143005Z:只表示小时和分 ...
SpringCloud（七）之SpringCloud的链路追踪组件Sleuth实战，以及 zipkin 的部署和使用
一.前言 Spring Cloud Sleuth 主要功能就是在分布式系统中提供追踪解决方案 ,并且兼容了zipkin,提供了REST API接口来辅助我们查询跟踪数据以实现对分布式系统的监控程序 . ...
Nginx优化之基本安全优化 (隐藏Nginx软件版本号信息,更改源码隐藏Nginx软件名及版本号,更改Nginx服务的默认用户)
一,隐藏Nginx软件版本号信息查看版本号 curl -I 192.168.0.220 HTTP/1.1 200 OK Server: nginx/1.6.2 #这里清晰的暴露了Web版本号(1.6 ...

spark-scala-java实现wordcount

引入:spark-scala-java实现wordcount

1.spark-scala实现wordcount

2.spark-java实现wordcount

spark-scala-java实现wordcount的更多相关文章

随机推荐

热门专题