Spark Streaming Transformations
map(func):对DStream中的所有的元素进行func转换生成新的DStream
flatMap(func):和map方法类似,先对DStream中的元素进行func运算,然后压平,就是说,如果有一个元素是集合或者数组,那么会被拆成一个一个的元素
filter(func):对DStream中的元素进行func运算,把返回true的元素组成一个新的DStream
repartition(numPartitions): DStream重分区
union(otherStream):合并两个DStream
count(): 返回DStream中RDD中的元素的个数
reduce(func):聚合DStream中RDD的元素
countByValue():统计值出现的次数
reduceByKey(func, [numTasks]):对相同key的value进行func操作
join(otherStream, [numTasks]):相同key进行连接,(K, V) join (K, W) -> (K, (V, W))
cogroup(otherStream, [numTasks]):相同key进行右边的转换 (K, V) cogroup (K, W) (K, Seq[V], Seq[W])
transform(func): 对DStream中的RDD做func操作返回另外一个RDD
wordCounts.transform(rdd =>{
    rdd.filter(_._1 == "hello")
    rdd
})
updateStateByKey(func):根据key更新以前操作的结果,这个方法可以做累计操作,使用该方法要设置检查点目录,updateStateByKey方法参数需要指定类型
sc.setCheckpointDir("D://checkpoints/")
// 设置日志级别
sc.setLogLevel("ERROR")
val ds1 = wordCounts.updateStateByKey[Int]((x:Seq[Int], y:Option[Int]) => {
    val newValue = x.sum + y.getOrElse(0)
    Some(newValue)
})
Spark Streaming Transformations的更多相关文章
- Spark Streaming 事务处理彻底掌握
		本期内容: 1. Exactly once容错 2. 数据输出不重复 一. 事务场景 : 以银行转帐一次为例,A用户转账给B用户,如何保证事务的一致性,即A用户能够转出且只能转出一次,B用户能够收到且 ... 
- Spark Streaming官方文档学习--下
		Accumulators and Broadcast Variables 这些不能从checkpoint重新恢复 如果想启动检查点的时候使用这两个变量,就需要创建这写变量的懒惰的singleton实例 ... 
- Spark Streaming官方文档学习--上
		官方文档地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html Spark Streaming是spark ap ... 
- 9.Spark Streaming
		Spark Streaming 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性 ... 
- Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
		Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ... 
- Spark Streaming编程指南
		Overview A Quick Example Basic Concepts Linking Initializing StreamingContext Discretized Streams (D ... 
- Spark Streaming中的操作函数分析
		根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations J ... 
- 学习笔记:Spark Streaming的核心
		Spark Streaming的核心 1.核心概念 StreamingContext:要初始化Spark Streaming程序,必须创建一个StreamingContext对象,它是所有Spark ... 
- 使用 Kafka 和 Spark Streaming 构建实时数据处理系统
		使用 Kafka 和 Spark Streaming 构建实时数据处理系统 来源:https://www.ibm.com/developerworks,这篇文章转载自微信里文章,正好解决了我项目中的技 ... 
随机推荐
- SQL插入字段
			//SQL插入字段 String dropTable="drop table if exists test;"; String columnGid ="alter tab ... 
- java构造方法和重写equals
			Cell的构造函数 package Test; import java.util.Objects; public class Cell { int a; int b; public int getA( ... 
- POJ 2112 Optimal Milking ( 经典最大流 && Floyd && 二分 )
			题意 : 有 K 台挤奶机器,每台机器可以接受 M 头牛进行挤奶作业,总共有 C 头奶牛,机器编号为 1~K,奶牛编号为 K+1 ~ K+C ,然后给出奶牛和机器之间的距离矩阵,要求求出使得每头牛都能 ... 
- Python_018( isinstance,issubclass详解)
			1.isinstance() 1)class A:pass class B:pass b = B() print(isinstance(b,B) #True #isinstance(obj,type ... 
- POJ 1363 Rails(栈)
			题目代号:POJ 1363 题目链接:http://poj.org/problem?id=1363 题目原题: Rails Time Limit: 1000MS Memory Limit: 100 ... 
- codeforces D Salary Changing
			题意:给你n个人,和s块钱,每个人都有一个工资区间,你给所有人都发工资.然后要他们工资的中位数最大. 思路:二分找那个值.那个值要满足至少有n/2+1个工资区间内. #include<cstdi ... 
- nginx修改默认运行80端口的方法
			修改方法 很简单,修改nginx的配置文件, 对应的值,如图: 将其改为别的端口号,就可以了. 
- element-ui的rules全局验证
			原文:https://www.jianshu.com/p/6a29e9e51b61 rules.js var QQV = (rule, value, callback) => { debugge ... 
- mycat 配置简介
			最近在看 mycat ,官网: http://www.mycat.io/ 上面就有 PDF 的教程下载.但是对于我这个初学者来讲,搭建环境的时候还是有点晕,下面从一个简单的例子来讲解相关配置.我用的 ... 
- 用流的方式来操作hdfs上的文件
			import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import ... 
