Spark Streaming自定义Receiver

一背景

Spark社区为Spark Streaming提供了很多数据源接口，但是有些比较偏的数据源没有覆盖，由于公司技术栈选择，用了阿里云的MQ服务ONS，要做实时需求，要自己编写Receiver

二技术实现

1.官网的例子已经比较详细，但是进入实践还需要慢慢调试，官方文档。

2.实现代码，由三部分组成，receiver，inputstream，util

3.receiver代码

import java.io.Serializable

import java.util.Properties

import com.aliyun.openservices.ons.api._

import com.aliyun.openservices.ons.api.impl.ONSFactoryImpl

import org.apache.spark.internal.Logging

import org.apache.spark.storage.StorageLevel

import org.apache.spark.streaming.receiver.Receiver

class OnsReceiver(

    cid: String,

    accessKey: String,

    secretKey: String,

    addr: String,

    topic: String,

    tag: String,

    func: Message => Array[Byte])

  extends Receiver[Array[Byte]](StorageLevel.MEMORY_AND_DISK_2) with Serializable with Logging {

  receiver =>

  private var consumer: Consumer = null

  private var workerThread: Thread = null

  override def onStart(): Unit = {

    workerThread = new Thread(new Runnable {

      override def run(): Unit = {

        val properties = new Properties

        properties.put(PropertyKeyConst.ConsumerId, cid)

        properties.put(PropertyKeyConst.AccessKey, accessKey)

        properties.put(PropertyKeyConst.SecretKey, secretKey)

        properties.put(PropertyKeyConst.ONSAddr, addr)

        properties.put(PropertyKeyConst.MessageModel, "CLUSTERING")

        properties.put(PropertyKeyConst.ConsumeThreadNums, "50")

        val onsFactoryImpl = new ONSFactoryImpl

        consumer = onsFactoryImpl.createConsumer(properties)

        consumer.subscribe(topic, tag, new MessageListener() {

          override def consume(message: Message, context: ConsumeContext): Action = {

            try {

              receiver.store(func(message))

              Action.CommitMessage

            } catch {

              case e: Throwable => e.printStackTrace()

                Action.ReconsumeLater

            }

          }

        })

        consumer.start()

      }

    })

    workerThread.setName(s"Aliyun ONS Receiver $streamId")

    workerThread.setDaemon(true)

    workerThread.start()

  }

  override def onStop(): Unit = {

    if (workerThread != null) {

      if (consumer != null) {

        consumer.shutdown()

      }

      workerThread.join()

      workerThread = null

      logInfo(s"Stopped receiver for streamId $streamId")

    }

  }

}

input代码

import com.aliyun.openservices.ons.api.Message

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.dstream.ReceiverInputDStream

import org.apache.spark.streaming.receiver.Receiver

class OnsInputDStream(

    @transient _ssc: StreamingContext,

    cid: String,

    topic: String,

    tag: String,

    accessKey: String,

    secretKey: String,

    addr:String,

    func: Message => Array[Byte]

  ) extends ReceiverInputDStream[Array[Byte]](_ssc) {

  override def getReceiver(): Receiver[Array[Byte]] = {

    new OnsReceiver(cid,accessKey,secretKey,addr,topic,tag,func)

  }

}

util代码

import com.aliyun.openservices.ons.api.Message

import org.apache.spark.annotation.Experimental

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}

object OnsUtils {

  @Experimental

  def createStream(

                    ssc: StreamingContext,

                    cid: String,

                    topic: String,

                    tag: String,

                    accessKey: String,

                    secretKey: String,

                    addr: String,

                    func: Message => Array[Byte]): ReceiverInputDStream[Array[Byte]] = {

    new OnsInputDStream(ssc, cid, topic, tag, accessKey, secretKey, addr, func)

  }

  @Experimental

  def createStreams(

                     ssc: StreamingContext,

                     consumerIdTopicTags: Array[(String, String, String)],

                     accessKey: String,

                     secretKey: String,

                     addr: String,

                     func: Message => Array[Byte]): DStream[Array[Byte]] = {

    val invalidTuples1 = consumerIdTopicTags.groupBy(e => (e._1, e._2)).filter(e => e._2.length > 1)

    val invalidTuples2 = consumerIdTopicTags.map(e => (e._1, e._2)).groupBy(e => e._1).filter(e => e._2.length > 1)

    if (invalidTuples1.size > 1 || invalidTuples2.size > 1) {

      throw new RuntimeException("Inconsistent consumer subscription.")

    } else {

      ssc.union(consumerIdTopicTags.map({

        case (consumerId, topic, tags) =>

          createStream(ssc, consumerId, topic, tags, accessKey, secretKey, addr, func)

      }))

    }

  }

}

三调用

val stream = (0 until 3).map(i => {

      OnsUtils.createStream(ssc,

        "CID",

        "BI_CALL",

        "call_log_ons",

        config.getString("ons.access_key"),

        config.getString("ons.sercet_key"),

        config.getString("ons.ons_addr"),

        func)

    })

    val unionStream = ssc.union(stream).foreachRDD(...)

stream可以决定设置多少个receiver，这个数量必须小于等于spark on yarn的num-executors，内存默认占用executors的内存的一半。

Spark Streaming自定义Receiver的更多相关文章

spark Streaming的Receiver和Direct的优化对比
Direct 1.简化并行读取:如果要读取多个partition,不需要创建多个输入DStream然后对它们进行union操作.Spark会创建跟Kafka partition一样多的RDD part ...
spark streaming 3: Receiver 到 submitJobSet
对于spark streaming来说,receiver是数据的源头.spark streaming的框架上,将receiver替换spark-core的以磁盘为数据源的做法,但是数据源(如监听某个 ...
Spark Streaming自定义Receivers
自定义一个Receiver class SocketTextStreamReceiver(host: String, port: Int( extends NetworkReceiver[String ...
9. Spark Streaming技术内幕 : Receiver在Driver的精妙实现全生命周期彻底研究和思考
原创文章,转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/) Spark streaming 程序需要不断接收新数据,然后进行业务逻辑 ...
4. Spark Streaming解析
4.1 初始化StreamingContext import org.apache.spark._ import org.apache.spark.streaming._ val conf = new ...
Spark Streaming Backpressure分析
1.为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > ...
Spark Streaming性能优化: 如何在生产环境下应对流数据峰值巨变
1.为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > ...
【Streaming】30分钟概览Spark Streaming 实时计算
本文主要介绍四个问题: 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark S ...
第12课：Spark Streaming源码解读之Executor容错安全性
一.Spark Streaming 数据安全性的考虑: Spark Streaming不断的接收数据,并且不断的产生Job,不断的提交Job给集群运行.所以这就涉及到一个非常重要的问题数据安全性. S ...

随机推荐

工作中vue项目前后端分离，调用后端本地接口出现跨域问题的完美解决
在我们实际开发中,选择不错的前端框架可以为我们省掉很多时间,当然,有时我们也会遇到很多坑. 最近在做vue项目时就遇到了跨域问题,一般来说,出现跨域我们第一反应使用jsonp,但是这个只支持get请求 ...
Storm 学习之路（八）—— Storm集成HDFS和HBase
一.Storm集成HDFS 1.1 项目结构本用例源码下载地址:storm-hdfs-integration 1.2 项目主要依赖项目主要依赖如下,有两个地方需要注意: 这里由于我服务器上安装的是 ...
C# 死锁 Task/AutoResetEvent
与之前<C# 死锁 TaskCompletionSource>类似,还有很多死锁的案例使用Task异步转同步时,使用不当造成的死锁 private void Task_OnClick(o ...
分享SQL，查询用户最近一次购买时间间隔
(1)先创建一张测试表: CREATE TABLE `用户购买订单` ( `购买时间` datetime(6) NULL DEFAULT NULL, `用户` varchar(20) CHARACTE ...
C++ luogu1352没有上司的舞会 from_树形DP
luogu1352没有上司的舞会分析(树形DP模板题): 没学树形DP的,看一下. 把该题抽象到一颗树中,设i的下属就是他的儿子,则有两种情况: 如果i参加,他的儿子就不能参加. 如果i不参加,他的 ...
音频算法speex中的aec分析以及解析
算法原理: Speex的AEC是以NLMS(Normalized Least Mean Square)为基础,用MDF(multidelay block frequency domain)频域实现,最 ...
Protocol Buffer使用转换工具将proto文件转换成Java文件流程及使用
Client与Server的网络通信协议传输使用google protobuf,服务器端使用的是Java 一. Protocol Buffersprotobuf全称Google Protocol Bu ...
C++学习书籍推荐《More Effective C++》下载
百度云及其他网盘下载地址:点我编辑推荐 <More Effective C++:35个改善编程与设计的有效方法(中文版)>:传世经典书丛媒体推荐 <Effective c++&g ...
Specifying the Code to Run on a Thread
This lesson shows you how to implement a Runnable class, which runs the code in its Runnable.run() m ...
组件--button详解
一.wxss尺寸单位rpx rpx(responsive pixel): 可以根据屏幕宽度进行自适应.规定屏幕宽为750rpx. 严格按照XML语法. 二.icon 图标组件 <!--index ...

Spark Streaming自定义Receiver

一 背景

二 技术实现

三 调用

Spark Streaming自定义Receiver的更多相关文章

随机推荐

热门专题

一背景

二技术实现

三调用