saprk2 structed streaming

netcat (windows) >nc -L -p 9999

import java.sql.Timestamp

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.functions._

/**

  */

object Test extends App {

  val host = "localhost"

  val port = 9999

  val windowSize = 10

  val slideSize = 5

  if (slideSize > windowSize) {

    System.err.println("<slide duration> must be less than or equal to <window duration>")

  }

  val windowDuration = s"$windowSize seconds"

  val slideDuration = s"$slideSize seconds"

  val spark = SparkSession

    .builder

    .appName("StructuredNetworkWordCountWindowed")

      .master("local[3]")

      .config("spark.sql.shuffle.partitions", 3)

    .getOrCreate()

  spark.sparkContext.setLogLevel("ERROR")

  import spark.implicits._

  // Create DataFrame representing the stream of input lines from connection to host:port

  val lines = spark.readStream

    .format("socket")

    .option("host", host)

    .option("port", port)

    .option("includeTimestamp", true)

    .load()

  // Split the lines into words, retaining timestamps

  val words = lines.as[(String, Timestamp)].flatMap(line =>

    line._1.split(" ").map(word => (word, line._2))

  ).toDF("word", "timestamp")

  // Group the data by window and word and compute the count of each group

  val windowedCounts = words.groupBy(

    window($"timestamp", windowDuration, slideDuration), $"word"

  ).count().orderBy($"window".desc)

  // Start running the query that prints the windowed word counts to the console

  val query = windowedCounts.writeStream

    .outputMode("complete")

    .format("console")

    .option("truncate", "false")

    .start()

  query.awaitTermination()

}

Result:

-------------------------------------------

Batch: 1

-------------------------------------------

+---------------------------------------------+----+-----+

|window                                       |word|count|

+---------------------------------------------+----+-----+

|[2017-10-24 16:09:30.0,2017-10-24 16:09:40.0]|b   |3    |

|[2017-10-24 16:09:30.0,2017-10-24 16:09:40.0]|a   |3    |

|[2017-10-24 16:09:30.0,2017-10-24 16:09:40.0]|c   |1    |

|[2017-10-24 16:09:30.0,2017-10-24 16:09:40.0]|d   |1    |

|[2017-10-24 16:06:40.0,2017-10-24 16:06:50.0]|a   |4    |

|[2017-10-24 16:06:35.0,2017-10-24 16:06:45.0]|a   |8    |

|[2017-10-24 16:06:30.0,2017-10-24 16:06:40.0]|a   |4    |

+---------------------------------------------+----+-----+

窗口移动5秒，窗口宽度10秒。

聚合维度： window, {world}

http://asyncified.io/2017/07/30/exploring-stateful-streaming-with-spark-structured-streaming/

saprk2 structed streaming的更多相关文章

Structured Streaming教程(2) —— 常用输入与输出
上篇了解了一些基本的Structured Streaming的概念,知道了Structured Streaming其实是一个无下界的无限递增的DataFrame.基于这个DataFrame,我们可以做 ...
是时候学习真正的 spark 技术了
  spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, ...
学习spark 技术
spark sql 可以说是 spark 中的精华部分了,我感觉整体复杂度是 spark streaming 的 5 倍以上,现在 spark 官方主推 structed streaming, spa ...
Apache Spark 3.0 预览版正式发布，多项重大功能发布
2019年11月08日数砖的 Xingbo Jiang 大佬给社区发了一封邮件,宣布 Apache Spark 3.0 预览版正式发布,这个版本主要是为了对即将发布的 Apache Spark 3. ...
CDH CM版本 6.0.1 升级到 CM 6.2.0 当前最新版本（CentOS 7.x）
CDH 的 6.0.1 是一个尴尬的版本,那时候 cloudera 还没有将 spark 更新到 2.4 还使用的是 spark 2.2版本. 但后来我们发现 2.3 | 2.4 更新了非常多的 fe ...
StructuredStreaming编程模型
StructuredStreaming编程模型基本概念 ◆ Time ◆ Trigger ◆ Input ◆ Query ◆ Result ◆ Output 案例模型:实时处理流单词统计编程模型 ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...
Storm介绍及与Spark Streaming对比
Storm介绍 Storm是由Twitter开源的分布式.高容错的实时处理系统,它的出现令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求.Storm常用于在实时分析.在线机器学 ...

随机推荐

Subquery typo with using in（转）
Subquery typo with using in Do you use the following syntax? SELECT * FROM TABLE WHERE COLUMN IN ( ...
webpack 构建同时适用于手机和电脑的调试服务器
plugins plugins: [ new HtmlWebpackPlugin({ // 使用模板同时生成 pc.html和mobile.html title: 'pc', filename: 'p ...
MYSQL错误：You can't specify target table for update in FROM clause
这句话意思是:不能先select再更新(修改)同一个表. 可以再外嵌套多一层,这个问题只有mysql有,mssql和oracle都没有. # 出错delete from Person where Id ...
43-python-自己的词典
可以用python实现一个自己的词典, 就是在网上下一个英汉词典,作为自己的词库,然后整理出一个json文件,存起来,查词时,直接读取查询: 处理时可以用正则表达式处理: https://www.cn ...
mockito使用
mockito学习资料: http://docs.mockito.googlecode.com/hg/org/mockito/Mockito.html http://blog.csdn.net/sdy ...
AspectJ的XML方式完成AOP的开发之AOP的通知类型
1. 前置通知 * 在目标类的方法执行之前执行. * 配置文件信息:<aop:after method="before" pointcut-ref="myPoint ...
关于前一篇innodb自增列自己的一点补充
上篇文章是我转载的,忘记注明了出处,在这里深感歉意.但是上篇文章中关于自增列预留ID的计算我当时怎么弄明白,后来自己想了想终于想通了,在这里详细解释一下. 我们以一次性插入10行为例,表格如下: 插 ...
PAT 1072 开学寄语（20）（代码+思路）
1072 开学寄语(20 分) 下图是上海某校的新学期开学寄语:天将降大任于斯人也,必先删其微博,卸其 QQ,封其电脑,夺其手机,收其 ipad,断其 wifi,使其百无聊赖,然后,净面.理发.整衣, ...
KMP(2)
KMP 算法(2):其细微之处 2017 年 05 月 13 日 • 技术系列文章目录 KMP 算法(1):如何理解 KMP KMP 算法(2):其细微之处本篇来谈一谈 KMP 的一些细微之处,直 ...
05 Maven 生命周期和插件
Maven 生命周期和插件除了坐标.依赖以及仓库之外, Maven 另外两个核心概念是生命周期和插件.在有关 Maven 的日常使用中,命令行的输入往往就对应了生命周期,如 mvn package ...

saprk2 structed streaming

saprk2 structed streaming的更多相关文章

随机推荐

热门专题