Spark的word count

word count

 package com.spark.app

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by Administrator on 2016/7/24 0024.

   */

 object WordCount {

   def main(args: Array[String]) {

     /**

       * 第1步；创建Spark的配置对象SparkConf，设置Spark程序运行时的配置信息

       * 例如 setAppName用来设置应用程序的名称，在程序运行的监控界面可以看到该名称，

       * setMaster设置程序运行在本地还是运行在集群中，运行在本地可是使用local参数，也可以使用local[K]/local[*],

       * 可以去spark官网查看它们不同的意义。 如果要运行在集群中，以Standalone模式运行的话，需要使用spark://HOST:PORT

       * 的形式指定master的IP和端口号，默认是7077

       */

     val conf = new SparkConf().setAppName("WordCount").setMaster("local")

 //  val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077")  // 运行在集群中

     /**

       * 第2步：创建SparkContext 对象

       * SparkContext是Spark程序所有功能的唯一入口

       * SparkContext核心作用： 初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler、TaskScheduler、SchedulerBackend

       * 同时还会负责Spark程序往Master注册程序

       *

       * 通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

       */

     val sc = new SparkContext(conf)

     /**

       * 第3步： 根据具体的数据来源(HDFS、 HBase、Local FS、DB、 S3等)通过SparkContext来创建RDD

       * RDD 的创建基本有三种方式： 根据外部的数据来源(例如HDFS)、根据Scala集合使用SparkContext的parallelize方法、

       * 由其他的RDD操作产生

       * 数据会被RDD划分成为一系列的Partitions，分配到每个Partition的数据属于一个Task的处理范畴

       */

     val lines = sc.textFile("D:/resources/README.md")   // 读取本地文件

 //  val lines = sc.textFile("/library/wordcount/input")   // 读取HDFS文件，并切分成不同的Partition

 //  val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input")  // 或者明确指明是从HDFS上获取数据

     /**

       * 第4步： 对初始的RDD进行Transformation级别的处理，例如 map、filter等高阶函数来进行具体的数据计算

       */

     val words = lines.flatMap(_.split(" ")).filter(word => word != " ")  // 拆分单词，并过滤掉空格，当然还可以继续进行过滤，如去掉标点符号

     val pairs = words.map(word => (word, 1))  // 在单词拆分的基础上对每个单词实例计数为1, 也就是 word => (word, 1)

     val wordscount = pairs.reduceByKey(_ + _)  // 在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数, 即key相同的value相加

 //  val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2)  // 等同于

     wordscount.collect.foreach(println)  // 打印结果，使用collect会将集群中的数据收集到当前运行drive的机器上，需要保证单台机器能放得下所有数据

     sc.stop()   // 释放资源

   }

 }

注意spark的套路：

1. 创建配置配置，创建sparkcontext；

2. 获取数据源；

3. flatmap进行元素独立；

4. filter进行过滤；

5. map封装为元组；

6. reduce进行计数；

按照数量排序

 package com.spark.app

 import org.apache.spark.{SparkContext, SparkConf}

 /**

   * Created by Administrator on 2016/7/24 0024.

   */

 object WordCountSorted {

   def main(args: Array[String]) {

     def conf = new SparkConf().setAppName("WordCountSorted").setMaster("local")

     def sc = new SparkContext(conf)

     val lines = sc.textFile("D:/resources/README.md")

     val words = lines.flatMap(_.split(" ")).filter(word => word != " ")

     val pairs = words.map(word => (word, 1))

     /**

       * 在这里通过reduceByKey方法之后可以获得每个单词出现的次数

       * 第一个map将单词和出现的次数交换，将出现的次数作为key，使用sortByKey进行排序（false为降序）

       * 第二个map将出现的次数和单词交换，这样还是恢复到以单词作为key

       */

     val wordcount = pairs.reduceByKey(_ + _).map(pair => (pair._2, pair._1)).sortByKey(false).map(pair => (pair._2, pair._1))

     wordcount.collect.foreach(println)

     sc.stop()

   }

 }

你可以采用一条龙的方式来进行上述实现，感觉那是一个畅快！

Spark的word count的更多相关文章

spark编写word count
创建SparkContext对象的时候需要传递SparkConf对象,SparkConf至少需要包含spark.master和spark.app.name这两个参数,不然的话程序不能正常运行 obje ...
[Spark Core] Spark Shell 实现 Word Count
0. 说明在 Spark Shell 实现 Word Count RDD (Resilient Distributed dataset), 弹性分布式数据集. 示意图 1. 实现 1.1 分步实现 ...
Spark：java api实现word count统计
方案一:使用reduceByKey 数据word.txt 张三李四王五李四王五李四王五李四王五王五李四李四李四李四李四代码: import org.apache.spar ...
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)
1 导引我们在博客<Hadoop: 单词计数(Word Count)的MapReduce实现 >中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来 ...
Hive Word count
--https://github.com/slimandslam/pig-hive-wordcount/blob/master/wordcount.hql DROP TABLE myinput; DR ...
mac上eclipse上运行word count
1.打开eclipse之后,建立wordcount项目 package wordcount; import java.io.IOException; import java.util.StringTo ...
MapReduce工作机制——Word Count实例（一）
MapReduce工作机制--Word Count实例(一) MapReduce的思想是分布式计算,也就是分而治之,并行计算提高速度. 编程思想首先,要将数据抽象为键值对的形式,map函数输入键值对 ...
Word Count作业
Word Count作业一.个人Gitee地址:https://gitee.com/Changyu-Guo 二.项目简介该项目主要是模拟Linux上面的wc命令,基本要求如下: 命令格式: wc. ...
Word Count
Word Count 一.个人Gitee地址:https://gitee.com/godcoder979/(该项目完整代码在这里) 二.项目简介: 该项目是一个统计文件字符.单词.行数等数目的应用程序 ...

随机推荐

ps -ef |grep xxx 输出的具体含义
ps:将某个进程显示出来 -A 显示所有程序. -e 此参数的效果和指定"A"参数相同. -f 显示UID,PPIP,C与STIME栏位. grep命令是查找中间的|是管道命令 ...
JavaScript运算符：递增递减运算符前置和后置的区别
从两段代码说起 var num1 = 2; var num2 = 20; var num3 = --num1 + num2; var num4 = num1 + num2; console.log(n ...
mysql禁止远程访问的解决办法
1. 改表法. 可能是你的帐号不允许从远程登陆,只能在localhost.这个时候只要在localhost的那台电脑,登入mysql后,更改 "mysql" 数据库里的 &qu ...
kettle 发邮件带附件
新建一个job,主要用到的组件有两个,如下图: 首先点击下图的文件,选择你要做为邮件附件的文件.选完后会在前辈的文件.目录中显示.然后点击增加,会下面文件列表中显示已经添加的文件(涂黄色的部分) 按下 ...
《Python》内置方法进阶和常用模块
一:__new__ 在__init__之前,实例化对象的第一步是__new__创建了一个空间 class Foo: def __init__(self): # 初始化方法 print('执行了init ...
numpy 小示例
import numpy as np 生成 3*4 的由 0 组成的二维数组 >>> np.zeros((3,4)) array([[0., 0., 0., 0.], [0., 0 ...
IIS7.5 与 Tomcat 8整合
IIS需要与Tomcat共用80端口,现在只能通过IIS来转发请求给Tomcat实现,即所谓的整合: 一.下载The Apache Tomcat Connector,下载地址是:http://www. ...
redis 五大数据类型之string篇
一: 1:string(字符串) string是redis最基本的类型,你可以理解成与Memcached一模一样的类型,一个key对应一个value. string类型是二进制安全的.意思是redis ...
NBUT 1224 Happiness Hotel 2010辽宁省赛
Time limit 1000 ms Memory limit 131072 kB The life of Little A is good, and, he managed to get enoug ...
py安装以及配置pip环境变量
安装python,安装包链接:https://pan.baidu.com/s/1u4tA-FJMxtrtJTap-zFh3g 密码:gh1c 默然安装到了C盘安装pycharm:安装包链接:链接:h ...

Spark的word count

Spark的word count的更多相关文章

随机推荐

热门专题