SparkStreming之updateStateByKey

正文

　　上一篇简单的写了一个socketTextStream的demo，这个问题就是每一次不能将之前和之后的数据进行合并统一。接下来我们通过demo进行把着这个问题解决。

  val conf = new SparkConf().setMaster("local[2]").setAppName("updateState")
  val sc: StreamingContext = new StreamingContext(conf, Seconds(2))

  sc.checkpoint("hdfs://hadoop01:9000/streamcp")
  val textStream: ReceiverInputDStream[String] = sc.socketTextStream("hadoop01", 9999)
  val map: DStream[(String, Int)] = textStream.flatMap(_.split(",")).map((_, 1))

  //目的在于将当前读取到的和上一次读取到的一样的key合并
  val dStream = map.updateStateByKey((value: Seq[Int], state: Option[Int]) => {
    //计算key此次出现的个数
    val currentCount = value.sum
    //上一次结果
    val lastCount = state.getOrElse(0)
    //因为看源码返回结果是Option[S]，结果不是None就是Some，但是我们现在处理了所以只有Some即可
    Some(currentCount + lastCount)
  })

  dStream.print()

  sc.start()
  sc.awaitTermination()
  sc.stop()
}

　　通过代码中的注释已经算是对这个方法的解释了，因为他可以拿到上一个计算结果，同时能读到当前数据，进行合并就显得简单的多了sc.checkpoint("hdfs://hadoop01:9000/streamcp")此目的是为了搭配updateStateBykey使用，如果不加则会报错提示缺少checkpoint，我们创建了也会在hdfs的目录中看到这个节点，同时这个节点下会生产文件数据。

　　这是在运行程序后不停的去checkpoint的数据，如下红色框中是此程序输入的内容

　　然后我们的代码运行结果如下，可以看出来，每次输入的结果已经可以汇总出来。

SparkStreming之updateStateByKey的更多相关文章

spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
【Spark篇】---SparkStreaming算子操作transform和updateStateByKey
一.前述今天分享一篇SparkStreaming常用的算子transform和updateStateByKey. 可以通过transform算子,对Dstream做RDD到RDD的任意操作.其实就是 ...
067 HA与updateStateByKey结合
是HA与updateStateByKey相结合的程序. 有点问题,有点奇怪,重启项目后运行没有问题,但是第三次启动的时候,就不会在打印数据了,有点问题. 1.程序 package com.stream ...
065 updateStateByKey的函数API
一:使用场景 1.应用场景数据的累加一段时间内的数据的累加 2.说明每个批次都输出自己批次的数据, 这个时候,可以使用这个API,使得他们之间产生联系. 3.说明2 在累加器的时候,起到的效果和 ...
SparkStreaming updateStateByKey 保存记录信息
)(_+_) ) 查看是否存在,如果存在直接获取 )) ssc.checkpoint() )) //使用updateStateByKey 来更新状态 val stateDstream = wordDs ...
Spark Streaming updateStateByKey案例实战和内幕源码解密
本节课程主要分二个部分: 一.Spark Streaming updateStateByKey案例实战二.Spark Streaming updateStateByKey源码解密第一部分: upda ...
spark streaming updateStateByKey 用法
object NetworkWordCount { def main(args: Array[String]) { ) { System.err.println("Usage: Networ ...
spark-streming 中调用spark-sql时过程遇到的问题
在spark-streming 中调用spark-sql时过程遇到的问题使用版本:spark-2.1.0 JDK1.8 1. spark-sql中对limit 的查询结果使用sum() 聚合操作不生 ...
14：Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
首先简单解释一下)) //要使用updateStateByKey方法,必须设置Checkpoint. ssc.checkpoint("/checkpoint/") val sock ...

随机推荐

css3多列及瀑布流效果
css3内容分块,多列效果(类似报纸版块排版): .div02{ /*count:内容分为几列,gap:内容与分割线的距离,rule:分割线样式*/ column-count:; column-gap ...
SQL语句查询某字段不同数据的个数（DISTINCT 的使用）
今天做了一个题,学到了一个知识点: 有一个高速收费表VF,如下: 统计收费涉及的车辆有多少: SQL语句: SELECT COUNT(DISTINCT VchReg) from VF ; 其中 ...
mysql @value := 用法
背景有这么一张表,记录名字和分数,现在需要按照成绩排名,存在并列名次的情况解决方法思路:按照score从大到小排序,第一行数据就是第一名,第二行就是第二名......需要判断当前行的score和 ...
mysql 获取原数据
show databases show tables information_schema show tables 语句的输出不包含temporary表查看服务器所有数据库 >show ...
Mybatis映射原理，动态SQL，log4j
1.理清mybatis中的#和$之间的区别? #{ }:表示一个预处理参数,参数类型不定,是根据传入的参数类型来设定的. 类似于JDBC中的? 特例使用,模糊查询:(针对oracle): and us ...
大咖云集！IMWebConf 2017 前端大会即将在深圳盛大开幕
2017年火热的夏季,一年一度的IMWebConf强势来袭!9月16日,深圳科兴国际会议中心,我们将全心全意打造一场前端盛宴,恭候各位的光临. 作为一名前端老鸟,笔者有幸也参与了本次的大会的主题分享& ...
python在windows和linux环境的进程对比
1.fork进程:(1)在windows系统中不可以用fork来创建进程,linux可以,但是创建大量进程使用很不方便. 2.Process进程: import multiprocessing as ...
linux（十）之初始化文件
前面写了很多linux的知识,其实很多都是命令的,所以要去多多的练习才能学的更好,加油为了好工作. 要么现在懒惰,未来讨饭.要么现在努力,未来惬意. 一.初始化文件概述 1.1.概述系统初始化文件是 ...
spring MVC处理请求过程及配置详解
本文主要梳理下Spring MVC处理http请求的过程,以及配置servlet及业务application需要的常用标签,及其包含的意义. spring MVC处理请求过程首先看一个整体图简单说 ...
Thread类源码剖析
目录 1.引子 2.JVM线程状态 3.Thread常用方法 4.拓展点一.引子说来也有些汗颜,搞了几年java,忽然发现竟然没拜读过java.lang.Thread类源码,这次特地拿出来晒一晒. ...

SparkStreming之updateStateByKey

正文

Read more books, read good books

SparkStreming之updateStateByKey的更多相关文章

随机推荐

热门专题