Spark的word count

word count

 package com.spark.app

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by Administrator on 2016/7/24 0024.

   */

 object WordCount {

   def main(args: Array[String]) {

     /**

       * 第1步；创建Spark的配置对象SparkConf，设置Spark程序运行时的配置信息

       * 例如 setAppName用来设置应用程序的名称，在程序运行的监控界面可以看到该名称，

       * setMaster设置程序运行在本地还是运行在集群中，运行在本地可是使用local参数，也可以使用local[K]/local[*],

       * 可以去spark官网查看它们不同的意义。 如果要运行在集群中，以Standalone模式运行的话，需要使用spark://HOST:PORT

       * 的形式指定master的IP和端口号，默认是7077

       */

     val conf = new SparkConf().setAppName("WordCount").setMaster("local")

 //  val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077")  // 运行在集群中

     /**

       * 第2步：创建SparkContext 对象

       * SparkContext是Spark程序所有功能的唯一入口

       * SparkContext核心作用： 初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler、TaskScheduler、SchedulerBackend

       * 同时还会负责Spark程序往Master注册程序

       *

       * 通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

       */

     val sc = new SparkContext(conf)

     /**

       * 第3步： 根据具体的数据来源(HDFS、 HBase、Local FS、DB、 S3等)通过SparkContext来创建RDD

       * RDD 的创建基本有三种方式： 根据外部的数据来源(例如HDFS)、根据Scala集合使用SparkContext的parallelize方法、

       * 由其他的RDD操作产生

       * 数据会被RDD划分成为一系列的Partitions，分配到每个Partition的数据属于一个Task的处理范畴

       */

     val lines = sc.textFile("D:/resources/README.md")   // 读取本地文件

 //  val lines = sc.textFile("/library/wordcount/input")   // 读取HDFS文件，并切分成不同的Partition

 //  val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input")  // 或者明确指明是从HDFS上获取数据

     /**

       * 第4步： 对初始的RDD进行Transformation级别的处理，例如 map、filter等高阶函数来进行具体的数据计算

       */

     val words = lines.flatMap(_.split(" ")).filter(word => word != " ")  // 拆分单词，并过滤掉空格，当然还可以继续进行过滤，如去掉标点符号

     val pairs = words.map(word => (word, 1))  // 在单词拆分的基础上对每个单词实例计数为1, 也就是 word => (word, 1)

     val wordscount = pairs.reduceByKey(_ + _)  // 在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数, 即key相同的value相加

 //  val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2)  // 等同于

     wordscount.collect.foreach(println)  // 打印结果，使用collect会将集群中的数据收集到当前运行drive的机器上，需要保证单台机器能放得下所有数据

     sc.stop()   // 释放资源

   }

 }

注意spark的套路：

1. 创建配置配置，创建sparkcontext；

2. 获取数据源；

3. flatmap进行元素独立；

4. filter进行过滤；

5. map封装为元组；

6. reduce进行计数；

按照数量排序

 package com.spark.app

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by Administrator on 2016/7/24 0024.

   */

 object WordCountSorted {

   def main(args: Array[String]) {

     def conf = new SparkConf().setAppName("WordCountSorted").setMaster("local")

     def sc = new SparkContext(conf)

     val lines = sc.textFile("D:/resources/README.md")

     val words = lines.flatMap(_.split(" ")).filter(word => word != " ")

     val pairs = words.map(word => (word, 1))

     /**

       * 在这里通过reduceByKey方法之后可以获得每个单词出现的次数

       * 第一个map将单词和出现的次数交换，将出现的次数作为key，使用sortByKey进行排序（false为降序）

       * 第二个map将出现的次数和单词交换，这样还是恢复到以单词作为key

       */

     val wordcount = pairs.reduceByKey(_ + _).map(pair => (pair._2, pair._1)).sortByKey(false).map(pair => (pair._2, pair._1))

     wordcount.collect.foreach(println)

     sc.stop()

   }

 }

你可以采用一条龙的方式来进行上述实现，感觉那是一个畅快！

Spark的word count的更多相关文章

spark编写word count
创建SparkContext对象的时候需要传递SparkConf对象,SparkConf至少需要包含spark.master和spark.app.name这两个参数,不然的话程序不能正常运行 obje ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark：java api实现word count统计
方案一:使用reduceByKey 数据word.txt 张三李四王五李四王五李四王五李四王五王五李四李四李四李四李四代码: import org.apache.spar ...
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)
1 导引我们在博客<Hadoop: 单词计数(Word Count)的MapReduce实现 >中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来 ...
Hive Word count
--https://github.com/slimandslam/pig-hive-wordcount/blob/master/wordcount.hql DROP TABLE myinput; DR ...
mac上eclipse上运行word count
1.打开eclipse之后,建立wordcount项目 package wordcount; import java.io.IOException; import java.util.StringTo ...
MapReduce工作机制——Word Count实例（一）
MapReduce工作机制--Word Count实例(一) MapReduce的思想是分布式计算,也就是分而治之,并行计算提高速度. 编程思想首先,要将数据抽象为键值对的形式,map函数输入键值对 ...
Word Count作业
Word Count作业一.个人Gitee地址:https://gitee.com/Changyu-Guo 二.项目简介该项目主要是模拟Linux上面的wc命令,基本要求如下: 命令格式: wc. ...
Word Count
Word Count 一.个人Gitee地址:https://gitee.com/godcoder979/(该项目完整代码在这里) 二.项目简介: 该项目是一个统计文件字符.单词.行数等数目的应用程序 ...

随机推荐

ORA-14452:试图创建,更改或删除正在使用的临时表中的索引
因为表kol_xx_fin050_temp 为临时表,而且有其他session正在使用. select vs.* from v$session vs , v$lock vl , dba_objects ...
laravel自定义分页功能的实现：
laravel版本:5.5.. 执行命令: php artisan vendor:publish --tag=laravel-pagination 在到 resources/views/vendor/ ...
RTU命令设置笔记
YN+12VCTL=1 配置+12V输出控制模式:永久输出YN+5VCTL=1 配置+5V输出控制模式:永久输出 YN+GETDATA 读取采样值 YN++LIST 获取设置参数列表 YN+LOAD ...
iOS使用UIWebView遇到Error Domain=WebKitErrorDomain Code=101 “The operation couldn’t be completed. (WebKitErrorDomain error 101
现在在接触iOS开发,今天在调试一个界面加载web页面的问题,发现死活无法加载,浏览器里能正常打开,加上相应代码之后得到了错误信息为: 2013-04-18 15:05:06.446 Client_D ...
MyEclipse WebSphere开发教程：WebSphere 8安装指南（一）
[周年庆]MyEclipse个人授权折扣低至冰点!立即开抢>> [MyEclipse最新版下载] IBM为使用WebSphere测试应用程序的开发人员提供了免费的WebSphere Ap ...
SharePoint SSS(Security Store Service)服务-PowerShell
1. 获取SSS应用程序的标识 Get-SPServiceApplication 2. 获取指定的SSS应用程序实例 $sss = Get-SPServiceApplication -Identity ...
ora-01830:日期格式图片在转换整个输入字符串之前结束
在to_date的时候因为 fldsj这个字段的大小与 ‘yyyy-MM-dd’不符合所以需要截取下fldsj字段的大小 to_char(to_date(substr(fldsj,1,10),' ...
求a^b
时间: 1000ms / 空间: 131072KiB / Java类名: Main 描述求a^b 由于结果可能很大,我们现在只需要知道这个值 mod 1012就可以了(为什么是1012?我的生日) ...
解决Android adjustresize全屏无效问题
最近在做一个即时通信的聊天页面时,页面要求要全屏显示,这个时候android:windowSoftInputMode = "adjustResize"属性就不起作用了,如果使用an ...
TensorRT简介-转载
前言 NVIDIA TensorRT是一种高性能神经网络推理(Inference)引擎,用于在生产环境中部署深度学习应用程序,应用有图像分类.分割和目标检测等,可提供最大的推理吞吐量和效率.Tens ...

Spark的word count

Spark的word count的更多相关文章

随机推荐

热门专题