Spark入门1（以WordCount为例讲解flatmap和map之间的区别）

 package com.test

 import org.apache.spark.{SparkConf, SparkContext}

 object WordCount {

   def main(args: Array[String]) {

     /**

       * 第1步；创建Spark的配置对象SparkConf，设置Spark程序运行时的配置信息

       * 例如 setAppName用来设置应用程序的名称，在程序运行的监控界面可以看到该名称，

       * setMaster设置程序运行在本地还是运行在集群中，运行在本地可是使用local参数，也可以使用local[K]/local[*],

       * 可以去spark官网查看它们不同的意义。 如果要运行在集群中，以Standalone模式运行的话，需要使用spark://HOST:PORT

       * 的形式指定master的IP和端口号，默认是7077

       */

     val conf = new SparkConf().setAppName("WordCount").setMaster("local")

     //  val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077")  // 运行在集群中

     /**

       * 第2步：创建SparkContext 对象

       * SparkContext是Spark程序所有功能的唯一入口

       * SparkContext核心作用： 初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler、TaskScheduler、SchedulerBackend

       * 同时还会负责Spark程序往Master注册程序

       *

       * 通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

       */

     val sc = new SparkContext(conf)

     /**

       * 第3步： 根据具体的数据来源(HDFS、 HBase、Local FS、DB、 S3等)通过SparkContext来创建RDD

       * RDD 的创建基本有三种方式： 根据外部的数据来源(例如HDFS)、根据Scala集合使用SparkContext的parallelize方法、

       * 由其他的RDD操作产生

       * 数据会被RDD划分成为一系列的Partitions，分配到每个Partition的数据属于一个Task的处理范畴

       */

     val lines = sc.textFile("D:/wordCount.txt")   // 读取本地文件

     //  val lines = sc.textFile("/library/wordcount/input")   // 读取HDFS文件，并切分成不同的Partition

     //  val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input")  // 或者明确指明是从HDFS上获取数据

     /**

       * 第4步： 对初始的RDD进行Transformation级别的处理，例如 map、filter等高阶函数来进行具体的数据计算

       */

     val words = lines.flatMap(_.split(" ")).filter(word => word != " ")  // 拆分单词，并过滤掉空格，当然还可以继续进行过滤，如去掉标点符号

     val pairs = words.map(word => (word, 1))  // 在单词拆分的基础上对每个单词实例计数为1, 也就是 word => (word, 1)

     val wordscount = pairs.reduceByKey(_ + _)  // 在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数, 即key相同的value相加

     //  val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2)  // 等同于

     wordscount.collect.foreach(println)  // 打印结果，使用collect会将集群中的数据收集到当前运行drive的机器上，需要保证单台机器能放得下所有数据

     sc.stop()   // 释放资源

   }

 }

 package com.test

 import org.apache.spark.{SparkConf, SparkContext}

 object WordCount {

   def main(args: Array[String]) {

     /**

       * 第1步；创建Spark的配置对象SparkConf，设置Spark程序运行时的配置信息

       * 例如 setAppName用来设置应用程序的名称，在程序运行的监控界面可以看到该名称，

       * setMaster设置程序运行在本地还是运行在集群中，运行在本地可是使用local参数，也可以使用local[K]/local[*],

       * 可以去spark官网查看它们不同的意义。 如果要运行在集群中，以Standalone模式运行的话，需要使用spark://HOST:PORT

       * 的形式指定master的IP和端口号，默认是7077

       */

     val conf = new SparkConf().setAppName("WordCount").setMaster("local")

     //  val conf = new SparkConf().setAppName("WordCount").setMaster("spark://master:7077")  // 运行在集群中

     /**

       * 第2步：创建SparkContext 对象

       * SparkContext是Spark程序所有功能的唯一入口

       * SparkContext核心作用： 初始化Spark应用程序运行所需要的核心组件，包括DAGScheduler、TaskScheduler、SchedulerBackend

       * 同时还会负责Spark程序往Master注册程序

       *

       * 通过传入SparkConf实例来定制Spark运行的具体参数和配置信息

       */

     val sc = new SparkContext(conf)

     /**

       * 第3步： 根据具体的数据来源(HDFS、 HBase、Local FS、DB、 S3等)通过SparkContext来创建RDD

       * RDD 的创建基本有三种方式： 根据外部的数据来源(例如HDFS)、根据Scala集合使用SparkContext的parallelize方法、

       * 由其他的RDD操作产生

       * 数据会被RDD划分成为一系列的Partitions，分配到每个Partition的数据属于一个Task的处理范畴

       */

     val lines = sc.textFile("D:/data/kddcup.data_10_percent_corrected")   // 读取本地文件

     //  val lines = sc.textFile("/library/wordcount/input")   // 读取HDFS文件，并切分成不同的Partition

     //  val lines = sc.textFile("hdfs://master:9000/libarary/wordcount/input")  // 或者明确指明是从HDFS上获取数据

     /**

       * 第4步： 对初始的RDD进行Transformation级别的处理，例如 map、filter等高阶函数来进行具体的数据计算

       */

     println("words")

     //val words = lines.flatMap(_.split(" ")) // flatMap是将整个lines文件中的字母做拆分，返回的是一整个拆分后的list

     val pairs = lines.map(word => (word.split(",")(41), 1))  // Map是按行拆分，找到每行的第41个，实例计数为1，返回的是一个大list里面套了小的list

     val wordscount = pairs.reduceByKey(_ + _)  // 在每个单词实例计数为1的基础之上统计每个单词在文件中出现的总次数, 即key相同的value相加

     //  val wordscount = pairs.reduceByKey((v1, v2) => v1 + v2)  // 等同于

     wordscount.collect.foreach(println)  // 打印结果，使用collect会将集群中的数据收集到当前运行drive的机器上，需要保证单台机器能放得下所有数据

     sc.stop()   // 释放资源

   }

 }

　　博客中有两段很长的代码，我们重点关注第一段的43行和第二段的47行，我们可以看到第一段用了flatmap而第二段用了map。那这之间有什么区别呢？

　　第一段代码是以空格为间隔符读取统计txt文档中出现的单词数量，其中要注意的是行与行之间的分隔符也是“ ”，所以它只用一个flatmap就可以搞定，将所有单词用“ ”分割，取出，统计数量。而第二段代码是以“，”为分隔符统计每一行第41个单词的数量，这里就不能用flatmap了，因为flatmap是将整个文件的单词整合起来成为一个list，与map不同的是flatmap多加了一个flat（映射）的功能，所以我们就找不到第41个单词了。这里用map，最后没有映射，输出的是一个大list里面套了很多小list，每一个小list代表一行，所以我们就可以操作这些小list去找到第41个单词并统计。

来自博客：

http://blog.csdn.net/dwb1015/article/details/52013362

Spark入门1（以WordCount为例讲解flatmap和map之间的区别）的更多相关文章

提交任务到spark（以wordcount为例）
1.首先需要搭建好hadoop+spark环境,并保证服务正常.本文以wordcount为例. 2.创建源文件,即输入源.hello.txt文件,内容如下: tom jerry henry jim s ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Tachyon介绍 1.1 Tachyon简介随着实时计算的需求日益增多,分布式内存计算 ...
Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
spark 入门学习核心api
spark入门教程(3)--Spark 核心API开发原创 2016年04月13日 20:52:28 标签: spark / 分布式 / 大数据 / 教程 / 应用 4999 本教程源于2016年3 ...
Spark 入门
Spark 入门目录一. 1. 2. 3. 二. 三. 1. 2. 3. (1) (2) (3) 4. 5. 四. 1. 2. 3. 4. 5. 五. Spark Shell使用 ...
使用scala开发spark入门总结
使用scala开发spark入门总结一.spark简单介绍关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍.推荐简单介绍连接:http://blog.jobbole.c ...
Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...

随机推荐

【转】（总结）Nginx配置文件nginx.conf中文详解
本文转载自:http://www.ha97.com/5194.html 定义Nginx运行的用户和用户组 user www www; nginx进程数,建议设置为等于CPU总核心数 worker_pr ...
gdb查看内存(转)
可以使用examine命令(简写是x)来查看内存地址中的值.x命令的语法如下所示: x/<n/f/u> <addr> n.f.u是可选的参数. n是一个正整数,表示需要显示的 ...
git提示error setting certificate verify locations解决办法
先打开git bash窗口执行命令: git config --system http.sslcainfo "C:\Program Files (x86)\git\bin\curl-ca- ...
soj1036. Crypto Columns
1036. Crypto Columns Constraints Time Limit: 1 secs, Memory Limit: 32 MB Description The columnar en ...
js 禁用右键菜单、拖拽、选中、复制
//禁用拖拽 document.ondragstart = function () { return false; }; /** * 禁用右键菜单 */ document.oncontextmenu ...
Spring Boot1.5X升级到2.0
配置文件大量的Servlet专属的server.* properties被移到了server.servlet下拦截器 public class MyWebMvcConfigurerAdapter ...
qt中int与string的相互转换
我经常搞错这个问题,一直以为整形int b可以直接使用函数toString呢! 但是在qtCreator中在整形后面不管怎么按点(可以自动提示)他就是不给我提示,我就纳闷了这样居然不行百度了之后才知 ...
TCP检验和
TCP的检验和检验和目的目的是为了发现TCP首部和数据在发送端到接收端之间发生的任何改动.如果接收方检测到检验和有差错,则TCP段会被直接丢弃. TCP在计算检验和时,要加上一个12字节的伪首 ...
Splay算法摘要
先介绍变量定义 int n; struct Node { //Splay节点定义 ],val,num,siz; //fa:它爸爸:son它儿子,左0右1:val:这个节点的值 //num:这个值的数量 ...
Javascript中的Callback方法浅析
什么是callback? 回调函数就是一个通过函数指针调用的函数.如果你把函数的指针(地址)作为参数传递给另一个函数,当这个指针被用为调用它所指向的函数时,我们就说这是回调函数.回调函数不是由该函数 ...

Spark入门1（以WordCount为例讲解flatmap和map之间的区别）

Spark入门1（以WordCount为例讲解flatmap和map之间的区别）的更多相关文章

随机推荐

热门专题