Spark入门1（以WordCount为例讲解flatmap和map之间的区别）

 package com.test

 import org.apache.spark.{SparkConf, SparkContext}

 object WordCount {

   def main(args: Array[String]) {

     /**

       * 第1步；创建Spark的配置对象SparkConf，设置Spark程序运行时的配置信息

       * 例如 setAppName用来设置应用程序的名称，在程序运行的监控界面可以看到该名称，

       * setMaster设置程序运行在本地还是运行在集群中，运行在本地可是使用local参数，也可以使用local[K]/local[*],

       * 可以去spark官网查看它们不同的意义。 如果要运行在集群中，以Standalone模式运行的话，需要使用spark://HOST:PORT

       * 的形式指定master的IP和端口号，默认是7077

       */

     val conf = new SparkConf().setAppName("WordCount").setMaster("local")

     //  val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077")  // 运行在集群中

     /**

       * 第2步：创建SparkContext 对象

       * SparkContext是Spark程序所有功能的唯一入口

       * SparkContext核心作用： 初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler、TaskScheduler、SchedulerBackend

       * 同时还会负责Spark程序往Master注册程序

       *

       * 通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

       */

     val sc = new SparkContext(conf)

     /**

       * 第3步： 根据具体的数据来源(HDFS、 HBase、Local FS、DB、 S3等)通过SparkContext来创建RDD

       * RDD 的创建基本有三种方式： 根据外部的数据来源(例如HDFS)、根据Scala集合使用SparkContext的parallelize方法、

       * 由其他的RDD操作产生

       * 数据会被RDD划分成为一系列的Partitions，分配到每个Partition的数据属于一个Task的处理范畴

       */

     val lines = sc.textFile("D:/wordCount.txt")   // 读取本地文件

     //  val lines = sc.textFile("/library/wordcount/input")   // 读取HDFS文件，并切分成不同的Partition

     //  val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input")  // 或者明确指明是从HDFS上获取数据

     /**

       * 第4步： 对初始的RDD进行Transformation级别的处理，例如 map、filter等高阶函数来进行具体的数据计算

       */

     val words = lines.flatMap(_.split(" ")).filter(word => word != " ")  // 拆分单词，并过滤掉空格，当然还可以继续进行过滤，如去掉标点符号

     val pairs = words.map(word => (word, 1))  // 在单词拆分的基础上对每个单词实例计数为1, 也就是 word => (word, 1)

     val wordscount = pairs.reduceByKey(_ + _)  // 在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数, 即key相同的value相加

     //  val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2)  // 等同于

     wordscount.collect.foreach(println)  // 打印结果，使用collect会将集群中的数据收集到当前运行drive的机器上，需要保证单台机器能放得下所有数据

     sc.stop()   // 释放资源

   }

 }

 package com.test

 import org.apache.spark.{SparkConf, SparkContext}

 object WordCount {

   def main(args: Array[String]) {

     /**

       * 第1步；创建Spark的配置对象SparkConf，设置Spark程序运行时的配置信息

       * 例如 setAppName用来设置应用程序的名称，在程序运行的监控界面可以看到该名称，

       * setMaster设置程序运行在本地还是运行在集群中，运行在本地可是使用local参数，也可以使用local[K]/local[*],

       * 可以去spark官网查看它们不同的意义。 如果要运行在集群中，以Standalone模式运行的话，需要使用spark://HOST:PORT

       * 的形式指定master的IP和端口号，默认是7077

       */

     val conf = new SparkConf().setAppName("WordCount").setMaster("local")

     //  val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077")  // 运行在集群中

     /**

       * 第2步：创建SparkContext 对象

       * SparkContext是Spark程序所有功能的唯一入口

       * SparkContext核心作用： 初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler、TaskScheduler、SchedulerBackend

       * 同时还会负责Spark程序往Master注册程序

       *

       * 通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

       */

     val sc = new SparkContext(conf)

     /**

       * 第3步： 根据具体的数据来源(HDFS、 HBase、Local FS、DB、 S3等)通过SparkContext来创建RDD

       * RDD 的创建基本有三种方式： 根据外部的数据来源(例如HDFS)、根据Scala集合使用SparkContext的parallelize方法、

       * 由其他的RDD操作产生

       * 数据会被RDD划分成为一系列的Partitions，分配到每个Partition的数据属于一个Task的处理范畴

       */

     val lines = sc.textFile("D:/data/kddcup.data_10_percent_corrected")   // 读取本地文件

     //  val lines = sc.textFile("/library/wordcount/input")   // 读取HDFS文件，并切分成不同的Partition

     //  val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input")  // 或者明确指明是从HDFS上获取数据

     /**

       * 第4步： 对初始的RDD进行Transformation级别的处理，例如 map、filter等高阶函数来进行具体的数据计算

       */

     println("words")

     //val words = lines.flatMap(_.split(" ")) // flatMap是将整个lines文件中的字母做拆分，返回的是一整个拆分后的list

     val pairs = lines.map(word => (word.split(",")(41), 1))  // Map是按行拆分，找到每行的第41个，实例计数为1，返回的是一个大list里面套了小的list

     val wordscount = pairs.reduceByKey(_ + _)  // 在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数, 即key相同的value相加

     //  val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2)  // 等同于

     wordscount.collect.foreach(println)  // 打印结果，使用collect会将集群中的数据收集到当前运行drive的机器上，需要保证单台机器能放得下所有数据

     sc.stop()   // 释放资源

   }

 }

　　博客中有两段很长的代码，我们重点关注第一段的43行和第二段的47行，我们可以看到第一段用了flatmap而第二段用了map。那这之间有什么区别呢？

　　第一段代码是以空格为间隔符读取统计txt文档中出现的单词数量，其中要注意的是行与行之间的分隔符也是“ ”，所以它只用一个flatmap就可以搞定，将所有单词用“ ”分割，取出，统计数量。而第二段代码是以“，”为分隔符统计每一行第41个单词的数量，这里就不能用flatmap了，因为flatmap是将整个文件的单词整合起来成为一个list，与map不同的是flatmap多加了一个flat（映射）的功能，所以我们就找不到第41个单词了。这里用map，最后没有映射，输出的是一个大list里面套了很多小list，每一个小list代表一行，所以我们就可以操作这些小list去找到第41个单词并统计。

来自博客：

http://blog.csdn.net/dwb1015/article/details/52013362

Spark入门1（以WordCount为例讲解flatmap和map之间的区别）的更多相关文章

提交任务到spark（以wordcount为例）
1.首先需要搭建好hadoop+spark环境,并保证服务正常.本文以wordcount为例. 2.创建源文件,即输入源.hello.txt文件,内容如下: tom jerry henry jim s ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算 ...
Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
spark 入门学习核心api
spark入门教程(3)--Spark 核心API开发原创 2016年04月13日 20:52:28 标签: spark / 分布式 / 大数据 / 教程 / 应用 4999 本教程源于2016年3 ...
Spark 入门
Spark 入门目录一. 1. 2. 3. 二. 三. 1. 2. 3. (1) (2) (3) 4. 5. 四. 1. 2. 3. 4. 5. 五. Spark Shell使用 ...
使用scala开发spark入门总结
使用scala开发spark入门总结一.spark简单介绍关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍.推荐简单介绍连接:http://blog.jobbole.c ...
Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...

随机推荐

HDU 2176 基础NIM 输出方案
普通的NIM,然后问先手必胜第一次操作后的所有局面. 对于一个必胜局面只要转变局面SG值为必败(SG=0)留给后手就行了. /** @Date : 2017-10-13 21:39:13 * @Fil ...
select 的字段为空，给他显示默认值
select 的字段为空,给他显示默认值: 解决办法一: select id,name,(case when level is null then 0 else level end) as a fro ...
同一条sql语句，只是改变了搜索的条件，就很慢？
重建索引: ) 显示索引信息: dbcc showcontig('表名’) 具体参考:http://www.cnblogs.com/bluedy1229/p/3227167.html
Bzoj4763 雪辉
Time Limit: 39 Sec Memory Limit: 666 MBSubmit: 151 Solved: 80 Description 上次立下的NOIP退役Flag没有成功这次 ...
log4net记录系统错误日志到文本文件用法详解
log4net是一个完全免费开源的插件,可以去官网下载源码. 一般系统操作日志不会用log4net,自己写代码存入数据库更方便合理,但是系统部署后运行在客户环境,难免会发生系统bug.崩溃.断网等无法 ...
hdu 1004 Let the Balloon Rise（字典树）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1004 Let the Balloon Rise Time Limit: 2000/1000 MS (J ...
HTTP::Request 用 add-content 添加 POST参数
sub MAIN($cmd) { use HTTP::UserAgent; my $r = HTTP::Request.new(); $r.uri: 'http://localhost/a.php'; ...
java浅复制与深手动构造实现
首先来看看浅拷贝和深拷贝的定义: 浅拷贝:使用一个已知实例对新创建实例的成员变量逐个赋值,这个方式被称为浅拷贝. 深拷贝:当一个类的拷贝构造方法,不仅要复制对象的所有非引用成员变量值,还要为引用类型的 ...
项目中遇到的问题：Gradle传递性依赖冲突
问题描述: 在调用别人接口时,由于他们接口做了拦截处理在使用RestTemplate调用时必须要使用@Qualifier("他们封装好的类"),需要导入jar包 gradle方式导 ...
目标板通过nfs挂载根文件系统
目标板挂载根文件系统的方法有两种(这里所说的服务端就是ubuntu,Ubuntu已经成功安装了nfs服务,并且保证服务端与目标板ping 通) 第一种:等待开发板启动之后去挂载,此时文件系统从Flas ...

Spark入门1（以WordCount为例讲解flatmap和map之间的区别）

Spark入门1（以WordCount为例讲解flatmap和map之间的区别）的更多相关文章

随机推荐

热门专题