Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据

推送avro格式数据到topic

源代码：https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/java/es/aconde/structured/GeneratorDemo.java

package es.aconde.structured;

import com.twitter.bijection.Injection;

import com.twitter.bijection.avro.GenericAvroCodecs;

import org.apache.avro.Schema;

import org.apache.avro.generic.GenericData;

import org.apache.avro.generic.GenericRecord;

import org.apache.kafka.clients.producer.KafkaProducer;

import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.SplittableRandom;

import java.util.Properties;

/**

 * Fake data generator for Kafka

 *

 * @author Angel Conde

 */

public class GeneratorDemo {

    /**

     * Avro defined schema

     */

    public static final String USER_SCHEMA = "{"

            + "\"type\":\"record\","

            + "\"name\":\"alarm\","

            + "\"fields\":["

            + "  { \"name\":\"str1\", \"type\":\"string\" },"

            + "  { \"name\":\"str2\", \"type\":\"string\" },"

            + "  { \"name\":\"int1\", \"type\":\"int\" }"

            + "]}";

    /**

     *

     * @param args

     * @throws InterruptedException

     */

    public static void main(String[] args) throws InterruptedException {

        Properties props = new Properties();

        props.put("bootstrap.servers", "localhost:9092");

        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        props.put("value.serializer", "org.apache.kafka.common.serialization.ByteArraySerializer");

        Schema.Parser parser = new Schema.Parser();

        Schema schema = parser.parse(USER_SCHEMA);

        Injection<GenericRecord, byte[]> recordInjection = GenericAvroCodecs.toBinary(schema);

        KafkaProducer<String, byte[]> producer = new KafkaProducer<>(props);

        SplittableRandom random = new SplittableRandom();

        while (true) {

            GenericData.Record avroRecord = new GenericData.Record(schema);

            avroRecord.put("str1", "Str 1-" + random.nextInt(10));

            avroRecord.put("str2", "Str 2-" + random.nextInt(1000));

            avroRecord.put("int1", random.nextInt(10000));

            byte[] bytes = recordInjection.apply(avroRecord);

            ProducerRecord<String, byte[]> record = new ProducerRecord<>("mytopic", bytes);

            producer.send(record);

            Thread.sleep(100);

        }

    }

}

使用spark structured streaming接收topic解析avro数据

源代码：https://github.com/Neuw84/structured-streaming-avro-demo/blob/master/src/main/java/es/aconde/structured/StructuredDemo.java

package es.aconde.structured;

import com.databricks.spark.avro.SchemaConverters;

import com.twitter.bijection.Injection;

import com.twitter.bijection.avro.GenericAvroCodecs;

import org.apache.avro.Schema;

import org.apache.avro.generic.GenericRecord;

import org.apache.log4j.Level;

import org.apache.log4j.LogManager;

import org.apache.spark.SparkConf;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Encoders;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.sql.streaming.StreamingQuery;

import org.apache.spark.sql.streaming.StreamingQueryException;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructType;

/**

 * Structured streaming demo using Avro'ed Kafka topic as input

 *

 * @author Angel Conde

 */

public class StructuredDemo {

    private static Injection<GenericRecord, byte[]> recordInjection;

    private static StructType type;

    private static final String USER_SCHEMA = "{"

            + "\"type\":\"record\","

            + "\"name\":\"myrecord\","

            + "\"fields\":["

            + "  { \"name\":\"str1\", \"type\":\"string\" },"

            + "  { \"name\":\"str2\", \"type\":\"string\" },"

            + "  { \"name\":\"int1\", \"type\":\"int\" }"

            + "]}";

    private static Schema.Parser parser = new Schema.Parser();

    private static Schema schema = parser.parse(USER_SCHEMA);

    static { //once per VM, lazily

        recordInjection = GenericAvroCodecs.toBinary(schema);

        type = (StructType) SchemaConverters.toSqlType(schema).dataType();

    }

    public static void main(String[] args) throws StreamingQueryException {

        //set log4j programmatically

        LogManager.getLogger("org.apache.spark").setLevel(Level.WARN);

        LogManager.getLogger("akka").setLevel(Level.ERROR);

        //configure Spark

        SparkConf conf = new SparkConf()

                .setAppName("kafka-structured")

                .setMaster("local[*]");

        //initialize spark session

        SparkSession sparkSession = SparkSession

                .builder()

                .config(conf)

                .getOrCreate();

        //reduce task number

        sparkSession.sqlContext().setConf("spark.sql.shuffle.partitions", "3");

        //data stream from kafka

        Dataset<Row> ds1 = sparkSession

                .readStream()

                .format("kafka")

                .option("kafka.bootstrap.servers", "localhost:9092")

                .option("subscribe", "mytopic")

                .option("startingOffsets", "earliest")

                .load();

        //start the streaming query

        sparkSession.udf().register("deserialize", (byte[] data) -> {

            GenericRecord record = recordInjection.invert(data).get();

            return RowFactory.create(record.get("str1").toString(), record.get("str2").toString(), record.get("int1"));

        }, DataTypes.createStructType(type.fields()));

        ds1.printSchema();

        Dataset<Row> ds2 = ds1

                .select("value").as(Encoders.BINARY())

                .selectExpr("deserialize(value) as rows")

                .select("rows.*");

        ds2.printSchema();

        StreamingQuery query1 = ds2

                .groupBy("str1")

                .count()

                .writeStream()

                .queryName("Test query")

                .outputMode("complete")

                .format("console")

                .start();

        query1.awaitTermination();

    }

}

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据的更多相关文章

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十九）ES6.2.2 安装Ik中文分词器
注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十二）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。
Centos7出现异常:Failed to start LSB: Bring up/down networking. 按照<Kafka:ZK+Kafka+Spark Streaming集群环境搭 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据
将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十）安装hadoop2.9.0搭建HA
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十六）Structured Streaming中ForeachSink的用法
Structured Streaming默认支持的sink类型有File sink,Foreach sink,Console sink,Memory sink. ForeachWriter实现: 以写 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十四）定义一个avro schema使用comsumer发送avro字符流，producer接受avro字符流并解析
参考<在Kafka中使用Avro编码消息:Consumer篇>.<在Kafka中使用Avro编码消息:Producter篇> 在了解如何avro发送到kafka,再从kafka ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数, ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十八）ES6.2.2 增删改查基本操作
#文档元数据一个文档不仅仅包含它的数据 ,也包含元数据 —— 有关文档的信息. 三个必须的元数据元素如下:## _index 文档在哪存放 ## _type 文档表示的对象类别 ## ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）
异常问题:Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical mem ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（九）安装kafka_2.11-1.1.0
如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

随机推荐

VIM vim/vi的文件内、跨文件复制粘贴操作、替换操作
https://www.cnblogs.com/shengulong/p/6702868.html vi/vim 中可以使用 :s 命令来替换字符串 1.s/vivian/sky/ 替换当前行第一个 ...
hdu1828 扫描线计算周长
和扫描线计算面积差不多,新加了lbd,rbd线段树来标记区间的左右两侧是否被填充(左右边界是否存在),numbd线段树统计区间有多少边 /*数据弱不用离散化,但是要处理一下坐标*/ #include& ...
C#中的预处理指令详解
这篇文章主要介绍了C#中的预处理指令详解,本文讲解了#define 和 #undef.#if.#elif.#else和#endif.#warning和#error.#region和#endregion ...
51nod1185 威佐夫游戏 V2 （模拟乘法）
1185 威佐夫游戏 V2 基准时间限制:1 秒空间限制:131072 KB 分值: 0 难度:基础题收藏关注有2堆石子.A B两个人轮流拿,A先拿.每次可以从一堆中取任意个或从2堆中取 ...
统计uv（转）
UV是unique visitor的简写,是指通过互联网访问.浏览这个网页的自然人.在同一天内,uv只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数.独立IP访问者提供了一 ...
Emmet Cheat Sheet（Sublime编辑）
快捷创建html标签官网的Emmet Cheat Sheet :http://docs.emmet.io/cheat-sheet/ https://files.cnblogs.com/files/t ...
SQL中Union与Union All的区别
在写SQL查询语句时,经常会碰到类似于这种的需求:查询年龄大于60岁的男职工以及所有出生于1950年的职工.在处理这种需求时,无法使用一条简单的SQL语句查询出所有满足条件的结果,此时就需要将这种需求 ...
深入理解类成员函数的调用规则（理解成员函数的内存为什么不会反映在sizeof运算符上、类的静态绑定与动态绑定、虚函数表）
本文转载自:http://blog.51cto.com/9291927/2148695 总结: 一.成员函数的内存为什么不会反映在sizeof运算符上? 成员函数可以被看作是类 ...
MATLAB·提取图像中多个目标
基于matlab工具箱提取图像中的多目标特征(代码如下): 代码前面部分为提取图像的边界信息,调用了后面的遍历函数Pixel_Search,函数实现方法见后~ %%ROI Testing close ...
子域名收集之DNS字典爆破工具fierce与dnsdict6的使用
子域名收集之DNS字典爆破工具fierce与dnsdict6的使用一.fierce 0.介绍该工具是一个域名扫描综合性工具.它可以快速获取指定域名的DNS服务器,并检查是否存在区域传输(Zone ...

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据

推送avro格式数据到topic

使用spark structured streaming接收topic解析avro数据

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十九）：推送avro格式数据到topic，并使用spark structured streaming接收topic解析avro数据的更多相关文章

随机推荐

热门专题