Spark Streaming自定义Receiver

一背景

Spark社区为Spark Streaming提供了很多数据源接口，但是有些比较偏的数据源没有覆盖，由于公司技术栈选择，用了阿里云的MQ服务ONS，要做实时需求，要自己编写Receiver

二技术实现

1.官网的例子已经比较详细，但是进入实践还需要慢慢调试，官方文档。

2.实现代码，由三部分组成，receiver，inputstream，util

3.receiver代码

import java.io.Serializable

import java.util.Properties

import com.aliyun.openservices.ons.api._

import com.aliyun.openservices.ons.api.impl.ONSFactoryImpl

import org.apache.spark.internal.Logging

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.receiver.Receiver

class OnsReceiver(

    cid: String,

    accessKey: String,

    secretKey: String,

    addr: String,

    topic: String,

    tag: String,

    func: Message => Array[Byte])

  extends Receiver[Array[Byte]](StorageLevel.MEMORY_AND_DISK_2) with Serializable with Logging {

  receiver =>

  private var consumer: Consumer = null

  private var workerThread: Thread = null

  override def onStart(): Unit = {

    workerThread = new Thread(new Runnable {

      override def run(): Unit = {

        val properties = new Properties

        properties.put(PropertyKeyConst.ConsumerId, cid)

        properties.put(PropertyKeyConst.AccessKey, accessKey)

        properties.put(PropertyKeyConst.SecretKey, secretKey)

        properties.put(PropertyKeyConst.ONSAddr, addr)

        properties.put(PropertyKeyConst.MessageModel, "CLUSTERING")

        properties.put(PropertyKeyConst.ConsumeThreadNums, "50")

        val onsFactoryImpl = new ONSFactoryImpl

        consumer = onsFactoryImpl.createConsumer(properties)

        consumer.subscribe(topic, tag, new MessageListener() {

          override def consume(message: Message, context: ConsumeContext): Action = {

            try {

              receiver.store(func(message))

              Action.CommitMessage

            } catch {

              case e: Throwable => e.printStackTrace()

                Action.ReconsumeLater

            }

          }

        })

        consumer.start()

      }

    })

    workerThread.setName(s"Aliyun ONS Receiver $streamId")

    workerThread.setDaemon(true)

    workerThread.start()

  }

  override def onStop(): Unit = {

    if (workerThread != null) {

      if (consumer != null) {

        consumer.shutdown()

      }

      workerThread.join()

      workerThread = null

      logInfo(s"Stopped receiver for streamId $streamId")

    }

  }

}

input代码

import com.aliyun.openservices.ons.api.Message

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.dstream.ReceiverInputDStream

import org.apache.spark.streaming.receiver.Receiver

class OnsInputDStream(

    @transient _ssc: StreamingContext,

    cid: String,

    topic: String,

    tag: String,

    accessKey: String,

    secretKey: String,

    addr:String,

    func: Message => Array[Byte]

  ) extends ReceiverInputDStream[Array[Byte]](_ssc) {

  override def getReceiver(): Receiver[Array[Byte]] = {

    new OnsReceiver(cid,accessKey,secretKey,addr,topic,tag,func)

  }

}

util代码

import com.aliyun.openservices.ons.api.Message

import org.apache.spark.annotation.Experimental

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

object OnsUtils {

  @Experimental

  def createStream(

                    ssc: StreamingContext,

                    cid: String,

                    topic: String,

                    tag: String,

                    accessKey: String,

                    secretKey: String,

                    addr: String,

                    func: Message => Array[Byte]): ReceiverInputDStream[Array[Byte]] = {

    new OnsInputDStream(ssc, cid, topic, tag, accessKey, secretKey, addr, func)

  }

  @Experimental

  def createStreams(

                     ssc: StreamingContext,

                     consumerIdTopicTags: Array[(String, String, String)],

                     accessKey: String,

                     secretKey: String,

                     addr: String,

                     func: Message => Array[Byte]): DStream[Array[Byte]] = {

    val invalidTuples1 = consumerIdTopicTags.groupBy(e => (e._1, e._2)).filter(e => e._2.length > 1)

    val invalidTuples2 = consumerIdTopicTags.map(e => (e._1, e._2)).groupBy(e => e._1).filter(e => e._2.length > 1)

    if (invalidTuples1.size > 1 || invalidTuples2.size > 1) {

      throw new RuntimeException("Inconsistent consumer subscription.")

    } else {

      ssc.union(consumerIdTopicTags.map({

        case (consumerId, topic, tags) =>

          createStream(ssc, consumerId, topic, tags, accessKey, secretKey, addr, func)

      }))

    }

  }

}

三调用

val stream = (0 until 3).map(i => {

      OnsUtils.createStream(ssc,

        "CID",

        "BI_CALL",

        "call_log_ons",

        config.getString("ons.access_key"),

        config.getString("ons.sercet_key"),

        config.getString("ons.ons_addr"),

        func)

    })

    val unionStream = ssc.union(stream).foreachRDD(...)

stream可以决定设置多少个receiver，这个数量必须小于等于spark on yarn的num-executors，内存默认占用executors的内存的一半。

Spark Streaming自定义Receiver的更多相关文章

spark Streaming的Receiver和Direct的优化对比
Direct 1.简化并行读取:如果要读取多个partition,不需要创建多个输入DStream然后对它们进行union操作.Spark会创建跟Kafka partition一样多的RDD part ...
spark streaming 3: Receiver 到 submitJobSet
对于spark streaming来说,receiver是数据的源头.spark streaming的框架上,将receiver替换spark-core的以磁盘为数据源的做法,但是数据源(如监听某个 ...
Spark Streaming自定义Receivers
自定义一个Receiver class SocketTextStreamReceiver(host: String, port: Int( extends NetworkReceiver[String ...
9. Spark Streaming技术内幕 : Receiver在Driver的精妙实现全生命周期彻底研究和思考
原创文章,转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/) Spark streaming 程序需要不断接收新数据,然后进行业务逻辑 ...
4. Spark Streaming解析
4.1 初始化StreamingContext import org.apache.spark._ import org.apache.spark.streaming._ val conf = new ...
Spark Streaming Backpressure分析
1.为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > ...
Spark Streaming性能优化: 如何在生产环境下应对流数据峰值巨变
1.为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > ...
【Streaming】30分钟概览Spark Streaming 实时计算
本文主要介绍四个问题: 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark S ...
第12课：Spark Streaming源码解读之Executor容错安全性
一.Spark Streaming 数据安全性的考虑: Spark Streaming不断的接收数据,并且不断的产生Job,不断的提交Job给集群运行.所以这就涉及到一个非常重要的问题数据安全性. S ...

随机推荐

Free MP3 CD Ripper_缓冲区溢出远程代码执行_CVE-2019-9766漏洞复现
Free MP3 CD Ripper_缓冲区溢出远程代码执行_CVE-2019-9766漏洞复现一.漏洞描述 Free MP3 CD Ripper是一款音频格式转换器.Free MP3 CD Rip ...
Node.js实现PC端类微信聊天软件（二）
Github StackChat 用到的React-Router React-Router是React路由的解决方案之一,也可以使用别的库安装 npm install react-router -- ...
【docker学习一】CentOS7.5+Docker安装及使用「安装、查看、pull、创建、进入镜像」
记录安装配置以及使用的过程,可能会有多处摘抄,已注明照抄地址,侵删. 是什么:个人理解,是一种移植性很强的虚拟机,支持版本控制(类似于git),同一个服务器可以运行多个docker容器,每个docke ...
Linux下多网卡绑定bond及模式介绍
[介绍] 网卡bond一般主要用于网络吞吐量很大,以及对于网络稳定性要求较高的场景. 主要是通过将多个物理网卡绑定到一个逻辑网卡上,实现了本地网卡的冗余,带宽扩容以及负载均衡. Linux下一共有七种 ...
Mac上使用brew update会卡住的问题
Mac上使用brew update会卡住的问题 brew默认的源是Github,会非常慢,建议换为国内的源.推荐中科大的镜像源,比较全面. 解决方案 Homebrew Homebrew源代码仓库替换 ...
消息驱动式微服务：Spring Cloud Stream & RabbitMQ
1. 概述在本文中,我们将向您介绍Spring Cloud Stream,这是一个用于构建消息驱动的微服务应用程序的框架,这些应用程序由一个常见的消息传递代理(如RabbitMQ.Apache Ka ...
设计模式-责任链模式（responsibility）
责任链模式是行为模式的一种,该模式构造一系列的分别担当不同职责的类的对象(HeaderCar.BodyCar.FooterCar)来共同完成一个任务,这些类的对象之间像链条一样紧密相连. 角色和职责: ...
myecliese加大内存
加大内存代码 : -Xms512m -Xmx1024m -XX:PermSize=256M -XX:MaxPermSize=1024m
kuangbin专题专题一简单搜索 Fire! UVA - 11624
题目链接:https://vjudge.net/problem/UVA-11624 题意:一个迷宫,可能有一个或者多个地方着火了,每过1个时间消耗,火会向四周蔓延,问Joe能不能逃出迷宫,只要走出迷宫 ...
Spring WebFlux之HttpHandler的探索
这是本人正在写的<Java 编程方法论:响应式Reactor3.Reactor-Netty和Spring WebFlux>一书的文章节选,它是<Java编程方法论:响应式RxJava ...

Spark Streaming自定义Receiver

一 背景

二 技术实现

三 调用

Spark Streaming自定义Receiver的更多相关文章

随机推荐

热门专题

一背景

二技术实现

三调用