spark 的RDD各种转换和动作
今天先把spark的各种基本转换和动作总结下,以后有时间把各种用法放上去。
1 RDD基本转换操作
    map、flagMap、distinct
    coalesce、repartition
    coalesce、repartition
    randomSplit、glom
    union、intersection、subtract
    mapPartitions、mapPartitionsWithIndex
    mapPartitions、mapPartitionsWithIndex
    zip、zipPartitions
    zipWithIndex、zipWithUniqueId
    partitionBy、mapValues、flatMapValues
    combineByKey、foldByKey 
    groupByKey、reduceByKey、reduceByKeyLocally
    cogroup、join
    leftOuterJoin、rightOuterJoin、subtractByKey
2 RDD行动Action操作
first、count、reduce、collect take、top、takeOrdered aggregate、fold、lookup countByKey、foreach、foreachPartition、sortBy saveAsTextFile、saveAsSequenceFile、saveAsObjectFile saveAsHadoopFile、saveAsHadoopDataset saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
spark 的RDD各种转换和动作的更多相关文章
- Spark RDD概念学习系列之RDD的转换(十)
		
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
 - Spark大数据处理 之 RDD粗粒度转换的威力
		
在从WordCount看Spark大数据处理的核心机制(2)中我们看到Spark为了支持迭代和交互式数据挖掘,而明确提出了内存中可重用的数据集RDD.RDD的只读特性,再加上粗粒度转换操作形成的Lin ...
 - Spark函数详解系列之RDD基本转换
		
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: ...
 - Spark中RDD转换成DataFrame的两种方式(分别用Java和Scala实现)
		
一:准备数据源 在项目下新建一个student.txt文件,里面的内容为: ,zhangsan, ,lisi, ,wanger, ,fangliu, 二:实现 Java版: 1.首先新建一个s ...
 - Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
		
1:什么是Spark的RDD??? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行 ...
 - [转]Spark学习之路 (三)Spark之RDD
		
Spark学习之路 (三)Spark之RDD https://www.cnblogs.com/qingyunzong/p/8899715.html 目录 一.RDD的概述 1.1 什么是RDD? ...
 - Spark学习之路 (三)Spark之RDD
		
一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素 ...
 - Spark之 RDD
		
简介 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的集合. Resilien ...
 - Spark之RDD
		
Spark学习之路Spark之RDD 目录 一.RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数 ...
 
随机推荐
- 【Hadoop】MapReduce笔记(一):MapReduce作业运行过程、任务执行
			
一.MR作业运行过程 JobClient的runJob()方法:新建JobClient实例,并调用其submitJob()方法.提交作业后,runJob()每秒轮询作业进度,如果发现上次上报后信息有改 ...
 - 【Data Structure & Algorithm】求子数组的最大和
			
求子数组的最大和 题目:输入一个整型数组,数组里有正数和负数.数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和.求所有子数组的和的最大值,要求时间复杂度为O(n).例如输入数组为1, - ...
 - VR视频原理
			
VR视频,这里指的是沉浸式全景视频,基本场景是观影者戴上显示头盔(如cardboard),在其中通过头部的转动可以看到全景视频的每个方向的图像.同时也能听到来自各个方向的声音,声音也会随着头部的转动而 ...
 - Fitnesse 之 Script Table
			
在表中每一行代表一个执行脚本. 第一行中的Script关键字表明表格类型,后面紧跟着类名(Fixture)和构造函数中的参数.在一个测试页中如果没有再指定其它Fixture,将一直沿用上一个Fixtu ...
 - beans.xml中的头部配置
			
Spring配置文件beans.xml头部配置解释 关于在beans.xml要使用哪些功能,官网上已经提供了每个功能说明和标准的头文件信息,当我们在开发使用时要哪些功能,都可以上官网去定位. http ...
 - PJzhang:python基础入门的7个疗程-one
			
猫宁!!! 参考链接:易灵微课-21天轻松掌握零基础python入门必修课-售价29元人民币 https://www.liaoxuefeng.com/wiki/1016959663602400 安全从 ...
 - Android的文件读取与存储
			
Java新建文件,然后就可以写入数据了,但是Android却不一样,因为Android是 基于Linux的,我们在读写文件的时候,还需加上文件的操作模式 Environment类是一个提供访问环境变量 ...
 - C 语言实例 - 计算 int, float, double 和 char 字节大小
			
C 语言实例 - 计算 int, float, double 和 char 字节大小 C 语言实例 C 语言实例 使用 sizeof 操作符计算int, float, double 和 char四种变 ...
 - 世风日下的哗啦啦族I (简单分块模板)
			
题目链接 #include <bits/stdc++.h> using namespace std; typedef long long ll; #define inf 0x7ffffff ...
 - 常用HTTP协议响应码(转载)
			
转载于: https://blog.csdn.net/github_36032947/article/details/78343734 HTTP响应码,也称http状态码(HTTP Status Co ...