Spark Structured Streaming：将数据落地按照数据字段进行分区方案

方案一（使用ForeachWriter Sink方式）：

val query = wordCounts.writeStream.trigger(ProcessingTime(5.seconds))

  .outputMode("complete")

  .foreach(new ForeachWriter[Row] {

      var fileWriter: FileWriter = _

      override def process(value: Row): Unit = {

        fileWriter.append(value.toSeq.mkString(","))

      }

      override def close(errorOrNull: Throwable): Unit = {

        fileWriter.close()

      }

      override def open(partitionId: Long, version: Long): Boolean = {

        FileUtils.forceMkdir(new File(s"/tmp/example/${partitionId}"))

        fileWriter = new FileWriter(new File(s"/tmp/example/${partitionId}/temp"))

        true

      }

    }).start()

方案二(ds.writeStream().partitionBy("field"))：

import org.apache.spark.sql.streaming.ProcessingTime

val query =

  streamingSelectDF

    .writeStream

    .format("parquet")

    .option("path", "/mnt/sample/test-data")

    .option("checkpointLocation", "/mnt/sample/check")

    .partitionBy("zip", "day")

    .trigger(ProcessingTime("25 seconds"))

    .start()

java代码：

        // Write new data to Parquet files

        // can be "orc", "json", "csv", etc.

        String hdfsFileFormat = SparkHelper.getInstance().getLTEBaseSaveHdfsFileFormat();

        String queryName = "save" + this.getTopicEncodeName(topicName) + "DataToHdfs";

        String saveHdfsPath = SparkHelper.getInstance().getLTEBaseSaveHdfsPath();

        // The file path which partitioned by scan_start_time (format:yyyyMMddHH0000)

        dsParsed.writeStream()

                .format(hdfsFileFormat)

                .option("path", saveHdfsPath + topicName + "/")

                .option("checkpointLocation", this.checkPointPath + queryName + "/")

                .outputMode("append")

                .partitionBy("scan_start_time")

                .trigger(Trigger.ProcessingTime(5, TimeUnit.MINUTES))

                .start();

Spark Structured Streaming：将数据落地按照数据字段进行分区方案的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据
推送avro格式数据到topic 源代码:https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/j ...
Spark Structured Streaming框架（2）之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File.kafka和socket. 1. Socket Socket方式是最简单的数据输入源,如Quick ex ...
Spark Structured Streaming框架(3)之数据输出源详解
Spark Structured streaming API支持的输出源有:Console.Memory.File和Foreach.其中Console在前两篇博文中已有详述,而Memory使用非常简单 ...
Spark Structured Streaming框架(2)之数据输入源详解
Spark Structured Streaming目前的2.1.0版本只支持输入源:File.kafka和socket. 1. Socket Socket方式是最简单的数据输入源,如Quick ex ...
Spark Structured streaming框架（1）之基本使用
Spark Struntured Streaming是Spark 2.1.0版本后新增加的流计算引擎,本博将通过几篇博文详细介绍这个框架.这篇是介绍Spark Structured Streamin ...
Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结（一）
背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新 ...
Spark2.2(三十八)：Spark Structured Streaming2.4之前版本使用agg和dropduplication消耗内存比较多的问题（Memory issue with spark structured streaming）调研
在spark中<Memory usage of state in Spark Structured Streaming>讲解Spark内存分配情况,以及提到了HDFSBackedState ...
Spark2.3（三十五）Spark Structured Streaming源代码剖析(从CSDN和Github中看到别人分析的源代码的文章值得收藏)
从CSDN中读取到关于spark structured streaming源代码分析不错的几篇文章 spark源码分析--事件总线LiveListenerBus spark事件总线的核心是LiveLi ...
Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计
WaterMark除了可以限定来迟数据范围,是否可以实现最近一小时统计? WaterMark目的用来限定参数计算数据的范围:比如当前计算数据内max timestamp是12::00,waterMar ...
DataFlow编程模型与Spark Structured streaming
流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理:对应的批量计算,更准确的说法是 ...

随机推荐

Sublime Text下使用SFTP/FTP插件
一.前言本文主要记录了Sublime Text编辑器下的SFTP/FTP的安装使用,方便linux和windows下的文件编辑,只是简单的记录,有不足之处,还望指教. 二.Linux和windows ...
TC SRM600 DIV2
开始补TC. 目前才补完SRM600的DIV2. 题目:http://community.topcoder.com/tc?module=ProblemArchive 250: 很水,不解释,直接搞. ...
Nginx担当WebSockets代理
Nginx担当WebSockets代理英文原文:http://nginx.com/blog/websocket-nginx/ 作者:chszs,转载需注明. 博客主页:http://blog.csd ...
SPI中的极性CPOL和相位CPHA
详解SPI中的极性CPOL和相位CPHA SPI由于接口相对简单(只需要4根线),用途算是比较广泛,主要应用在 EEPROM,FLASH, 实时时钟,AD转换器,还有数字信号处理器和数字信号解码器之间 ...
OAuth2.0网页授权提示未关注该测试号
用无高级接口权限的公众号使用别人的appid和appsecret在网页中获取用户信息时,提示未关注该测试号. 搜集各种资料才发现是因为测试帐号只能对关注者网页授权,正式帐号可以对未关注者授权
[Go] md5 加密示例
package main import ( "crypto/md5" "encoding/hex" "fmt" "io" ...
html5模拟平抛运动
<html> <head> <meta charset=utf-8> <title>html5炮弹</title> <script&g ...
C++11 bind
#include <iostream> #include <functional> using namespace std; int func(int a, int b) { ...
x86 TargetPlatform with XBAPs
I've got a XAML Browser Hosted Application (XBAP) project that has a dependency on another project t ...
firedac数据集和字符串之间相互转换
firedac数据集和字符串之间相互转换 /// <author>cxg 2018-12-20</author> unit DatasetString; interface u ...

Spark Structured Streaming：将数据落地按照数据字段进行分区方案

方案一（使用ForeachWriter Sink方式）：

方案二(ds.writeStream().partitionBy("field"))：

Spark Structured Streaming：将数据落地按照数据字段进行分区方案的更多相关文章

随机推荐

热门专题