Spark中map与flatMap

map将函数作用到数据集的每一个元素上，生成一个新的分布式的数据集(RDD)返回

map函数的源码：

def map(self, f, preservesPartitioning=False):

        """

        Return a new RDD by applying a function to each element of this RDD.

        >>> rdd = sc.parallelize(["b", "a", "c"])

        >>> sorted(rdd.map(lambda x: (x, 1)).collect())

        [('a', 1), ('b', 1), ('c', 1)]

        """

        def func(_, iterator):

            return map(fail_on_stopiteration(f), iterator)

        return self.mapPartitionsWithIndex(func, preservesPartitioning)

map将每一条输入执行func操作并对应返回一个对象，形成一个新的rdd，如源码中的rdd.map(lambda x: (x, 1) --> [('a', 1), ('b', 1), ('c', 1)]

flatMap会先执行map的操作，再将所有对象合并为一个对象，返回值是一个Sequence

flatMap源码：

def flatMap(self, f, preservesPartitioning=False):

        """

        >>> rdd = sc.parallelize([2, 3, 4])

        >>> sorted(rdd.flatMap(lambda x: range(1, x)).collect())

        [1, 1, 1, 2, 2, 3]

        >>> sorted(rdd.flatMap(lambda x: [(x, x), (x, x)]).collect())

        [(2, 2), (2, 2), (3, 3), (3, 3), (4, 4), (4, 4)]

        """

        def func(s, iterator):

            return chain.from_iterable(map(fail_on_stopiteration(f), iterator))

        return self.mapPartitionsWithIndex(func, preservesPartitioning)

注意：flatMap将输入执行func操作时，对象必须是可迭代的

map与flatMap的区别：

 from pyspark import SparkConf, SparkContext

 conf = SparkConf()

 sc = SparkContext(conf=conf)

 def func_map():

     data = ["hello world", "hello fly"]

     data_rdd = sc.parallelize(data)

     map_rdd = data_rdd.map(lambda s: s.split(" "))

     print("map print:{}".format(map_rdd.collect()))

 def func_flat_map():

     data = ["hello world", "hello fly"]

     data_rdd = sc.parallelize(data)

     flat_rdd = data_rdd.flatMap(lambda s: s.split(" "))

     print("flatMap print:{}".format(flat_rdd.collect()))

 func_map()

 func_flat_map()

 sc.stop()

执行结果：

map print:[['hello', 'world'], ['hello', 'fly']]

flatMap print:['hello', 'world', 'hello', 'fly']

可以看出，map对 "hello world", "hello fly"这两个对象分别映射为['hello', 'world'], ['hello', 'fly']，而flatMap在map的基础上做了一个合并操作，将这两个对象合并为一个['hello', 'world', 'hello', 'fly']，这就造就了flatMap在词频统计方面的优势。

Spark中map与flatMap的更多相关文章

spark中map与flatMap的区别
作为spark初学者对,一直对map与flatMap两个函数比较难以理解,这几天看了和写了不少例子,终于把它们搞清楚了两者的区别主要在于action后得到的值例子: import org.apac ...
Spark入门（四）--Spark的map、flatMap、mapToPair
spark的RDD操作在上一节Spark经典的单词统计中,了解了几个RDD操作,包括flatMap,map,reduceByKey,以及后面简化的方案,countByValue.那么这一节将介绍更多 ...
spark中map与mapPartitions区别
在spark中,map与mapPartitions两个函数都是比较常用,这里使用代码来解释一下两者区别 import org.apache.spark.{SparkConf, SparkContext ...
（转）scala中map与flatMap浅析
在函数式语言中,函数作为一等公民,可以在任何地方定义,在函数内或函数外,可以作为函数的参数和返回值,可以对函数进行组合.由于命令式编程语言也可以通过类似函数指针的方式来实现高阶函数,函数式的最主要的好 ...
理解Swift中map 和 flatMap对集合的作用
map和flatMap是函数式编程中常见的概念,python等语言中都有.借助于 map和flapMap 函数可以非常轻易地将数组转换成另外一个新数组. map函数可以被数组调用,它接受一个闭包作为參 ...
spark之map与flatMap差别
scala> val m = List(List("a","b"),List("c","d")) m: List[ ...
java8中 map和flatmap的理解
假如我们有这样一个需求给定单词列表["Hello","World"],你想要返回列表["H","e","l&q ...
spark中map和mapPartitions算子的区别
区别: 1.map是对rdd中每一个元素进行操作 2.mapPartitions是对rdd中每个partition的迭代器进行操作 mapPartitions优点: 1.若是普通map,比如一个par ...
Spark算子--map和flatMap
map和flatMap--Transformation类算子代码示例 result

随机推荐

js 数组不重复添加元素
1 前言由于使用JS的push会导致元素重复,而ES5之前没有set(集合)方法,重复元素还要做去重处理,比较麻烦些,所以直接写一个新push来处理 2 代码 Array.prototype.pus ...
Android录制音频的三种方式
对于录制音频,Android系统就都自带了一个小小的应用,可是使用起来可能不是特别的灵活.所以有提供了另外的俩种. 下边来介绍下这三种录制的方式; 1.通过Intent调用系统的录音器功能,然后在录制 ...
【转】Python学习路线
Python最佳学习路线图 python语言基础 (1)Python3入门,数据类型,字符串 (2)判断/循环语句,函数,命名空间,作用域 (3)类与对象,继承,多态 (4)tkinter界面编程 ( ...
在启用属性的情况下启动 Confluence 6
在一些情况下,你可以希望 Confluence 在系统启动的时候就对属性文件进行打印.如果你的 Confluence 经常进行重启,并且你可能忘记来启动针对系统诊断的属性文件日志开关. 编辑 CONF ...
Confluence 6 数据库和临时目录
数据库所有的其他数据库,包括有页面,内容都存储在数据库中.如果你安装的 Confluence 是用于评估或者你选择使用的是 Embedded H2 Database 数据库.数据库有关的文件将会存储 ...
Confluence 6 开始使用
欢迎来到 Confluence 的开始使用指南文档.在这个稳定中,你将会找到有关对 Confluence 进行评估的指南和其他的一些有用的内容.当你开始使用 Confluence 的时候,这些信息能够 ...
eclipse检出SVN项目的正确步骤
一.在工作空间新建工作目录:workspace-xf 二.在工作目录下workspace-xf 新建文件夹 tdvs ,进入该文件夹鼠标右键:SVN CheckOut 检出需要的项目三.打开ecl ...
jmeter IP欺骗功能
使用过loadrunner的同学,应该都了解有个IP欺骗功能,jmeter遇到类似需求怎样实现呢? 环境:windows7,jdk1.8,jmeter3.1 使用IP欺骗功能前提是本地有多个可用IP, ...
WEB测试总结
WEB测试总结:1.js文件session是否有缓存,如果没有缓存对服务器压力会很大:2.更改页面大小后,图表是否会再次向服务器请求数据:3.表单填写是否对html标识,script脚本做处理:(&l ...
步步为营-75-Cookie简介
说明:cookie常用于数据保存 1 使用 //创建cookie Response.cookies["yk"].value ="xyxtl"; //设置过期时间 ...

Spark中map与flatMap

Spark中map与flatMap的更多相关文章

随机推荐

热门专题