Spark Structured Streaming：将数据落地按照数据字段进行分区方案

方案一（使用ForeachWriter Sink方式）：

val query = wordCounts.writeStream.trigger(ProcessingTime(5.seconds))

  .outputMode("complete")

  .foreach(new ForeachWriter[Row] {

      var fileWriter: FileWriter = _

      override def process(value: Row): Unit = {

        fileWriter.append(value.toSeq.mkString(","))

      }

      override def close(errorOrNull: Throwable): Unit = {

        fileWriter.close()

      }

      override def open(partitionId: Long, version: Long): Boolean = {

        FileUtils.forceMkdir(new File(s"/tmp/example/${partitionId}"))

        fileWriter = new FileWriter(new File(s"/tmp/example/${partitionId}/temp"))

        true

      }

    }).start()

方案二(ds.writeStream().partitionBy("field"))：

import org.apache.spark.sql.streaming.ProcessingTime

val query =

  streamingSelectDF

    .writeStream

    .format("parquet")

    .option("path", "/mnt/sample/test-data")

    .option("checkpointLocation", "/mnt/sample/check")

    .partitionBy("zip", "day")

    .trigger(ProcessingTime("25 seconds"))

    .start()

java代码：

        // Write new data to Parquet files

        // can be "orc", "json", "csv", etc.

        String hdfsFileFormat = SparkHelper.getInstance().getLTEBaseSaveHdfsFileFormat();

        String queryName = "save" + this.getTopicEncodeName(topicName) + "DataToHdfs";

        String saveHdfsPath = SparkHelper.getInstance().getLTEBaseSaveHdfsPath();

        // The file path which partitioned by scan_start_time (format:yyyyMMddHH0000)

        dsParsed.writeStream()

                .format(hdfsFileFormat)

                .option("path", saveHdfsPath + topicName + "/")

                .option("checkpointLocation", this.checkPointPath + queryName + "/")

                .outputMode("append")

                .partitionBy("scan_start_time")

                .trigger(Trigger.ProcessingTime(5, TimeUnit.MINUTES))

                .start();

Spark Structured Streaming：将数据落地按照数据字段进行分区方案的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据
推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/j ...
Spark Structured Streaming框架（2）之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File.kafka和socket. 1. Socket Socket方式是最简单的数据输入源,如Quick ex ...
Spark Structured Streaming框架(3)之数据输出源详解
Spark Structured streaming API支持的输出源有:Console.Memory.File和Foreach.其中Console在前两篇博文中已有详述,而Memory使用非常简单 ...
Spark Structured Streaming框架(2)之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File.kafka和socket. 1. Socket Socket方式是最简单的数据输入源,如Quick ex ...
Spark Structured streaming框架（1）之基本使用
Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架.这篇是介绍Spark Structured Streamin ...
Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结（一）
背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新 ...
Spark2.2(三十八)：Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗内存比较多的问题（Memory issue with spark structured streaming）调研
在spark中<Memory usage of state in Spark Structured Streaming>讲解Spark内存分配情况,以及提到了HDFSBackedState ...
Spark2.3（三十五）Spark Structured Streaming源代码剖析(从CSDN和Github中看到别人分析的源代码的文章值得收藏)
从CSDN中读取到关于spark structured streaming源代码分析不错的几篇文章 spark源码分析--事件总线LiveListenerBus spark事件总线的核心是LiveLi ...
Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计
WaterMark除了可以限定来迟数据范围,是否可以实现最近一小时统计? WaterMark目的用来限定参数计算数据的范围:比如当前计算数据内max timestamp是12::00,waterMar ...
DataFlow编程模型与Spark Structured streaming
流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理:对应的批量计算,更准确的说法是 ...

随机推荐

python调用oracle存储过程（packeage）
http://markmail.org/message/y64t5mqlgy4rogte http://www.oracle.com/technetwork/cn/articles/prez-stor ...
How to replace a value in web.xml with a Maven property?(转)
<plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-war-p ...
异步接收MSMQ消息
在这部分,我们将使用ThreadPool 和MSMQ 进行消息收发.MSMQ 是一个分布式队列,通过MSMQ 一个应用程序可以异步地与另外一个应用程序通信. 在一个典型的场景中,我们要向维护一个队列的 ...
NodeJS下的Mongodb操作
今天用Node写一个小程序中需要用到数据库操作,试用了一下,发现官方的驱动已经非常好用了,也支持async. 一个简单的实例如下: const MongoClient = require('mongo ...
HDU 4764 Stone (2013长春网络赛，水博弈)
Stone Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submi ...
MCU PWM DAC OP Voltage Output
SSH 证书登录（实例详解）
SSH 证书登录(实例详解) 客户端通过私钥登录 ssh 服务器 CentOS 7 SSH 使用证书登录使用私钥 ssh 登陆 CentOS
css的浮动
浮动的框可以向左或向右移动,直到它的外边缘碰到包含框或另一个浮动框的边框为止. 由于浮动框不在文档的普通流中,所以文档的普通流中的块框表现得就像浮动框不存在一样. 一 css的浮动 CSS提供了元素对 ...
asp.net core读取appsettings.json，如何读取多环境开发配置
摘要在读取appsettings.json文件中配置的时候,觉得最简单的方式就是使用asp.net core注入的方式进行读取了. 步骤首先根据配置项的结构定义一个配置类,比如叫AppSettin ...
How AOT compares to a traditional JIT compiler
Ahead-of-Time (AOT) compilation is in contrast to Just-in-Time compilation (JIT). In a nutshell, .NE ...

Spark Structured Streaming：将数据落地按照数据字段进行分区方案

方案一（使用ForeachWriter Sink方式）：

方案二(ds.writeStream().partitionBy("field"))：

Spark Structured Streaming：将数据落地按照数据字段进行分区方案的更多相关文章

随机推荐

热门专题