Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十六）Structured Streaming中ForeachSink的用法

Structured Streaming默认支持的sink类型有File sink，Foreach sink，Console sink，Memory sink。

ForeachWriter实现：

以写入redis为例

package com.dx.streaming.producer;

import org.apache.spark.sql.ForeachWriter;

import org.apache.spark.sql.Row;

import redis.clients.jedis.Jedis;

import redis.clients.jedis.JedisPool;

import redis.clients.jedis.JedisPoolConfig;

public class TestForeachWriter extends ForeachWriter<Row> {

    private static final long serialVersionUID = 1801843595306161029L;

    public static JedisPool jedisPool;

    public Jedis jedis;

    static {

            JedisPoolConfig config = new JedisPoolConfig();

            config.setMaxTotal(20);

            config.setMaxIdle(5);

            config.setMaxWaitMillis(1000);

            config.setMinIdle(2);

            config.setTestOnBorrow(false);

            jedisPool = new JedisPool(config, "127.0.0.1", 6379);

    }

    public static synchronized Jedis getJedis() {

        return jedisPool.getResource();

    }

    @Override

    public boolean open(long partitionId, long version) {

           jedis = getJedis();

           return true;

    }

    @Override

    public void process(Row row) {

         jedis.set("row.key","row.value");

    }

    @Override

    public void close(Throwable arg0) {

         jedis.close();

    }

}

Structured Streaming中使用ForeachWriter示例：

package com.dx.streaming.producer;

import java.util.HashMap;

import java.util.Map;

import org.apache.avro.Schema;

import org.apache.spark.SparkConf;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Encoders;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.sql.streaming.StreamingQuery;

import org.apache.spark.sql.streaming.StreamingQueryException;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructType;

import com.databricks.spark.avro.SchemaConverters;

public class TestConsumer {

    private static final String avroFilePath = "D:\\Java_Study\\workspace\\kafka-streaming-learn\\conf\\avro\\userlog.avsc";

    //private static final String avroFilePath = "/user/dx/conf/avro/userlog.avsc";

    private static final String topic = "t-my";

    public static void main(String[] args) throws Exception {

        String appName = "Test Avro";

        SparkConf conf = new SparkConf().setMaster("local[*]").setAppName(appName);

        SparkSession sparkSession = SparkSession.builder().config(conf).getOrCreate();

        Map<String, String> kafkaOptions = new HashMap<String, String>();

        kafkaOptions.put("kafka.bootstrap.servers", "192.168.0.121:9092");

        Schema schema = SchemaUtil.getAvroSchemaFromHDFSFile(avroFilePath);

        AvroParserUDF udf = new AvroParserUDF(avroFilePath);

        StructType type = (StructType) SchemaConverters.toSqlType(schema).dataType();

        sparkSession.udf().register("deserialize", udf, DataTypes.createStructType(type.fields()));

        Dataset<Row> stream = sparkSession.readStream().format("kafka").options(kafkaOptions).option("subscribe", topic).option("startingOffsets", "earliest").load().select("value").as(Encoders.BINARY())

                .selectExpr("deserialize(value) as row").select("row.*");

        stream.printSchema();

        // Print new data to console

        StreamingQuery query = stream.writeStream().foreach(new TestForeachWriter()).outputMode("update").start();

        try {

            query.awaitTermination();

            sparkSession.streams().awaitAnyTermination();

        } catch (StreamingQueryException e) {

            e.printStackTrace();

        }

    }

}

参考：Spark的那些事(二)Structured streaming中Foreach sink的用法

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十六）Structured Streaming中ForeachSink的用法的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（六）针对spark2.2.1以yarn方式启动spark-shell抛出异常：ERROR cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(0,0,Map(),Set()) to AM was unsuccessful
Spark以yarn方式运行时抛出异常: [spark@master bin]$ cd /opt/spark--bin-hadoop2./bin [spark@master bin]$ ./spark ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（三）安装spark2.2.1
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十一）NIFI1.7.1安装
一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 sla ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical mem ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十二）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。
Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照<Kafka:ZK+Kafka+Spark Streaming集群环境搭 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据
将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十）安装hadoop2.9.0搭建HA
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（九）安装kafka_2.11-1.1.0
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（八）安装zookeeper-3.4.12
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二）安装hadoop2.9.0
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

随机推荐

【原】Spring整合Redis(第二篇)—SDR环境搭建具体步骤
[环境参数] Spring版本:4.2.6.RELEASESpring-Data-Redis版本:1.7.2.RELEASE Redis版本:redis-2.4.5-win32-win64 [简要说明 ...
Webpack 性能优化（一）（使用别名做重定向）
前言 Webpack 是 OneAPM 前端技术栈中非常重要的一部分.它非常好用,假设你还不了解它,建议你阅读这篇Webpack 入门指迷,在 OneAPM 我们用它完毕静态资源打包.ES6 代码的转 ...
每天一个linux命令-用户之间切换
怎么从root用户切换到普通用户 su是在用户间切换,可以是从普通用户切换到root用户,也可以是从root用户切换到普通用户.如果当前是root用户,那么切换成普通用户test用以下命令:su - ...
java.lang.IllegalArgumentException: No converter found for return value of type: class XXX.XXXX
最近项目中用到fastjson做接口数据的转换,发现报这个错误了,环境是springMVC4,看到阿里的官网说是“ 如果是使用 XML 的方式配置 Spring MVC 的话,只需在 Spring M ...
美国罪案故事第一季/全集American Crime Story迅雷下载
英文全名American Crime Story,第1季(2016)FX.本季看点:<美国罪案故事>以律师们的视角看待辛普森谋杀案. 本剧探索了案件背后各种混乱,以及案件双方的庭审策略,也 ...
天蝎第一季/全集Scorpion迅雷下载
英文译名 Scorpion (第1季) (2014-秋季播出)CBS.本季看点:<天蝎>双名蝎子故事描述一个高深莫测的计算机专家和一群同样具备天才头脑的国际计算机黑客共同组建全球防御网络, ...
Android源码中final关键字的用法及final,finally,finalize的区别
Android开发的学习流程 final,finally,finalize的区别 Android的发展越来越快,Android开发人员越来越多,当两种情况碰撞,在诸多开发者中跟紧Android步伐脱颖 ...
Java并发编程的艺术(十一)——线程池(2)
Executor两级调度模型在HotSpot虚拟机中,Java中的线程将会被一一映射为操作系统的线程. 在Java虚拟机层面,用户将多个任务提交给Executor框架,Executor负责分配线程执 ...
ExtJS 4.2 教程-02：bootstrap.js 工作方式
转载自起飞网,原文地址:http://www.qeefee.com/extjs-course-2-bootstrap-js ExtJS 4.2 教程-01:Hello ExtJS ExtJS 4.2 ...
带标签的 break 和 continue (Java)
2002年12月发于 CCW-I2006年9月搬至 CSDN,略作修改 Java 中有 goto 关键字,但这个关键字没有任何作用,换句话说,我们不能使用 goto 来进行跳转到某行.实际上,结构化程 ...

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十六）Structured Streaming中ForeachSink的用法

ForeachWriter实现：

Structured Streaming中使用ForeachWriter示例：

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十六）Structured Streaming中ForeachSink的用法的更多相关文章

随机推荐

热门专题