Spark实现wordcount的几种方式

方法一：map + reduceByKey

package com.cw.bigdata.spark.wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

/**

  * WordCount实现第一种方式:map + reduceByKey

  *

  * @author 陈小哥cw

  * @date 2020/7/9 9:59

  */

object WordCount1 {

  def main(args: Array[String]): Unit = {

    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount1")

    val sc: SparkContext = new SparkContext(config)

    val lines: RDD[String] = sc.textFile("in")

    lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

  }

}

方法二:使用countByValue代替map + reduceByKey

package com.cw.bigdata.spark.wordcount

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

/**

  * WordCount实现第二种方式：使用countByValue代替map + reduceByKey

  *

  * 根据数据集每个元素相同的内容来计数。返回相同内容的元素对应的条数。(不必作用在kv格式上)

  * map(value => (value, null)).countByKey()

  *

  * @author 陈小哥cw

  * @date 2020/7/9 10:02

  */

object WordCount2 {

  def main(args: Array[String]): Unit = {

    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount2")

    val sc: SparkContext = new SparkContext(config)

    val lines: RDD[String] = sc.textFile("in")

    lines.flatMap(_.split(" ")).countByValue().foreach(println)

  }

}

方法三:aggregateByKey或者foldByKey

package com.cw.bigdata.spark.wordcount

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

/**

  * WordCount实现第三种方式：aggregateByKey或者foldByKey

  *

  * def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)]

  *   1.zeroValue：给每一个分区中的每一个key一个初始值；

  *   2.seqOp：函数用于在每一个分区中用初始值逐步迭代value；(分区内聚合函数)

  *   3.combOp：函数用于合并每个分区中的结果。(分区间聚合函数)

  *

  *  foldByKey相当于aggregateByKey的简化操作，seqop和combop相同

  *

  *

  * @author 陈小哥cw

  * @date 2020/7/9 10:08

  */

object WordCount3 {

  def main(args: Array[String]): Unit = {

    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount3")

    val sc: SparkContext = new SparkContext(config)

    val lines: RDD[String] = sc.textFile("in")

    lines.flatMap(_.split(" ")).map((_, 1)).aggregateByKey(0)(_ + _, _ + _).collect().foreach(println)

    lines.flatMap(_.split(" ")).map((_, 1)).foldByKey(0)(_ + _).collect().foreach(println)

  }

}

方法四:groupByKey+map

package com.cw.bigdata.spark.wordcount

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

/**

  * WordCount实现的第四种方式：groupByKey+map

  *

  * @author 陈小哥cw

  * @date 2020/7/9 13:32

  */

object WordCount4 {

  def main(args: Array[String]): Unit = {

    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount4")

    val sc: SparkContext = new SparkContext(config)

    val lines: RDD[String] = sc.textFile("in")

    val groupByKeyRDD: RDD[(String, Iterable[Int])] = lines.flatMap(_.split(" ")).map((_, 1)).groupByKey()

    groupByKeyRDD.map(tuple => {

      (tuple._1, tuple._2.sum)

    }).collect().foreach(println)

  }

}

方法五:Scala原生实现wordcount

package com.cw.bigdata.spark.wordcount

/**

  * Scala原生实现wordcount

  *

  * @author 陈小哥cw

  * @date 2020/7/9 14:22

  */

object WordCount5 {

  def main(args: Array[String]): Unit = {

    val list = List("cw is cool", "wc is beautiful", "andy is beautiful", "mike is cool")

    /**

      * 第一步，将list中的元素按照分隔符这里是空格拆分，然后展开

      * 先map(_.split(" "))将每一个元素按照空格拆分

      * 然后flatten展开

      * flatmap即为上面两个步骤的整合

      */

    val res0 = list.map(_.split(" ")).flatten

    val res1 = list.flatMap(_.split(" "))

    println("第一步结果")

    println(res0)

    println(res1)

    /**

      * 第二步是将拆分后得到的每个单词生成一个元组

      * k是单词名称，v任意字符即可这里是1

      */

    val res3 = res1.map((_, 1))

    println("第二步结果")

    println(res3)

    /**

      * 第三步是根据相同的key合并

      */

    val res4 = res3.groupBy(_._1)

    println("第三步结果")

    println(res4)

    /**

      * 最后一步是求出groupBy后的每个key对应的value的size大小，即单词出现的个数

      */

    val res5 = res4.mapValues(_.size)

    println("最后一步结果")

    println(res5.toBuffer)

  }

}

方法六：combineByKey

package com.cw.bigdata.spark.wordcount

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

/**

  * WordCount实现的第六种方式：combineByKey

  *

  * @author 陈小哥cw

  * @date 2020/7/9 22:55

  */

object WordCount6 {

  def main(args: Array[String]): Unit = {

    val config: SparkConf = new SparkConf().setMaster("local[*]").setAppName("combineByKey")

    val sc: SparkContext = new SparkContext(config)

    val lines: RDD[String] = sc.textFile("in")

    val mapRDD: RDD[(String, Int)] = lines.flatMap(_.split(" ")).map((_, 1))

    // combineByKey实现wordcount

    mapRDD.combineByKey(

      x => x,

      (x: Int, y: Int) => x + y,

      (x: Int, y: Int) => x + y

    ).collect().foreach(println)

  }

}

Spark实现wordcount的几种方式的更多相关文章

Spark WordCount的两种方式
Spark WordCount的两种方式. 语言:Java 工具:Idea 项目:Java Maven pom.xml如下: <properties> <spark.version& ...
Spark读写Hbase的二种方式对比
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputForm ...
spark DataFrame的创建几种方式和存储
一. 从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载.转换.处理等功能.Sp ...
Spark入Hbase的四种方式效率对比
一.方式介绍本次测试一种采用了四种方式进行了对比,分别是:1.在RDD内部调用java API.2.调用saveAsNewAPIHadoopDataset()接口.3.saveAsHadoopDat ...
Spark配置参数的三种方式
1.Spark 属性Spark应用程序的运行是通过外部参数来控制的,参数的设置正确与否,好与坏会直接影响应用程序的性能,也就影响我们整个集群的性能.参数控制有以下方式:(1)直接设置在SparkCon ...
spark application提交应用的两种方式
bin/spark-submit --help ... ... --deploy-mode DEPLOY_MODE Whether to launch the driver program loc ...
Spark部署三种方式介绍：YARN模式、Standalone模式、HA模式
参考自:Spark部署三种方式介绍:YARN模式.Standalone模式.HA模式http://www.aboutyun.com/forum.php?mod=viewthread&tid=7 ...
UserView--第二种方式（避免第一种方式Set饱和），基于Spark算子的java代码实现
UserView--第二种方式(避免第一种方式Set饱和),基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import ...
UserView--第一种方式set去重，基于Spark算子的java代码实现
UserView--第一种方式set去重,基于Spark算子的java代码实现测试数据 java代码 package com.hzf.spark.study; import java.util.Ha ...

随机推荐

C语言实现类
#ifndef __DEFINE__H__ #define __DEFINE__H__ #define vector3(type) \ typedef struct vector3_##type { ...
【Spring注解驱动开发】使用InitializingBean和DisposableBean来管理bean的生命周期，你真的了解吗？
写在前面在<[Spring注解驱动开发]如何使用@Bean注解指定初始化和销毁的方法?看这一篇就够了!!>一文中,我们讲述了如何使用@Bean注解来指定bean初始化和销毁的方法.具体的 ...
AndroidStudio 编译失败；Caused by: org.gradle.api.resources.ResourceException: Could not get resource..
错误信息: Caused by: org.gradle.api.resources.ResourceException: Could not get resource 'https://jcenter ...
android 中使用自定义权限
1.如果在一个进程中启动另外一个进程的activity <?xml version="1.0" encoding="utf-8"?> <man ...
ECSHOP 2.5.1 二次开发文档【文件结构说明和数据库表分析】
ecshop文件架构说明 /* ECShop 2.5.1 的结构图及各文件相应功能介绍 ECShop2.5.1_Beta upload 的目录 ┣ activity.php 活动列表 ┣ affich ...
java中HashMap和Hashtable的区别
1.HashMap是Hashtable的轻量级实现(非线程安全的实现),他们都完成了Map接口,主要区别在于HashMap允许空(null)键值(key),由于非线程安全,在只有一个线程访问的情况下, ...
Shell 脚本学习(1)
一 Shell概览 1. 自动化批量系统初始化程序(update, 软件安装,时区设置,安全策略,...) 2. 自动化批量软件部署程序(LAMP,LNMP,Tomcat,LVS,Nginx) 3. ...
关于阿里云服务器Linux安装Tomcat后，外网不能访问解决方案
这里需要提及三个方面的问题第一个方面:Linux上启动防火墙的问题当下比较流行的Linux镜像是CentOS,所以防火墙也随之变成了firewall,那么怎么操作这个防火墙呢? #停止fi ...
Nginx使用upstream实现负载均衡
如果Nginx没有仅仅只能代理一台服务器的话,那它也不可能像今天这么火,Nginx可以配置代理多台服务器,当一台服务器宕机之后,仍能保持系统可用.具体配置过程如下: 1. 在http节点下,添加ups ...
.NET 开源工作流: Slickflow流程引擎高级开发(七)--消息队列(RabbitMQ)的集成使用
前言:工作流流程过程中,除了正常的人工审批类型的节点外,事件类型的节点处理也尤为重要.比如比较常见的事件类型的节点有:Timer/Message/Signal等.本文重点阐述消息类型的节点处理,以及实 ...

Spark实现wordcount的几种方式

方法一：map + reduceByKey

方法二:使用countByValue代替map + reduceByKey

方法三:aggregateByKey或者foldByKey

方法四:groupByKey+map

方法五:Scala原生实现wordcount

方法六：combineByKey

Spark实现wordcount的几种方式的更多相关文章

随机推荐

热门专题