转http://hadoop1989.com/2016/03/15/KafkaStreaming/

在Spark1.3之前，默认的Spark接收Kafka数据的方式是基于Receiver的，在这之后的版本里，推出了Direct Approach，现在整理一下两种方式的异同。

1. Receiver-based Approach

示例代码：

import org.apache.spark.streaming.kafka._

val kafkaStream = KafkaUtils.createStream(streamingContext,

 [ZK quorum], [consumer group id], [per-topic number of Kafka partitions to consume])

2. Direct Approach (No Receivers)

示例代码：

 import org.apache.spark.streaming.kafka._

 val directKafkaStream = KafkaUtils.createDirectStream[

 [key class], [value class], [key decoder class], [value decoder class] ](

 streamingContext, [map of Kafka parameters], [set of topics to consume])

源码实现

1、 KafkaUtils.createStream

首先从源码层面来看，其主要调用栈顺序：

KafkaUtils.createStream--->createStream--->new KafkaInputDStream--->new KafkaReceiver

KafkaReceiver类继承了Receiver，当Reciver被调用起来时，执行onStart()方法，MessageHandler负责将收到的数据进行存储。执行流程如下：

创建createStream，Receiver被调起执行
连接ZooKeeper，读取相应的Consumer、Topic配置信息等
通过consumerConnector连接到Kafka集群，收取指定topic的数据
创建KafkaMessageHandler线程池来对数据进行处理，通过ReceiverInputDStream中的方法，将数据转换成BlockRDD,供后续计算

2、 KafkaUtils.createDirectStream

主要调用栈顺序：

KafkaUtils.createDirectStream—> new DirectKafkaInputDStream

执行流程如下：

实例化KafkaCluster，根据用户配置的Kafka参数，连接Kafka集群
通过Kafka API读取Topic中每个Partition最后一次读的Offset
接收成功的数据，直接转换成KafkaRDD,供后续计算

架构

通过两张图，来看下他们架构。

1、 Receiver-based Approach

2、 Direct Approach (No Receivers)

优缺点

相关的优缺点，在官网上已经说得很清楚了。追求效率、数据准确可以使用Direct方式，但需要自己对Offset进行处理。

参考资料：

Spark Streaming + Kafka Integration Guide

https://github.com/koeninger/kafka-exactly-once

DirectStream、Stream的区别-SparkStreaming源码分析02的更多相关文章

getJSONObject与optJSONObject的区别,结合源码分析
*json解析常见问题: getJSONObject与optJSONObject的区别,下面结合源码和案例来分析当我们使用这两周方法来解析数据时,哪种比较好. 源码分析: //使用getJSONObj ...
dubbo源码分析02：服务引用
一.何时创建服务引用引用官方文档的原话,如果将Dubbo托管在Spring-IOC容器下,Dubbo服务引用的时机有两个,第一个是在Spring容器调用ReferenceBean的afterProp ...
Spring AMQP 源码分析 02 - CachingConnectionFactory
### 准备 ## 目标了解 CachingConnectionFactory 在默认缓存模式下的工作原理 ## 前置知识 <Spring AMQP 源码分析 01 - Impatie ...
JDK1.8源码分析02之阅读源码顺序
序言:阅读JDK源码应该从何开始,有计划,有步骤的深入学习呢? 下面就分享一篇比较好的学习源码顺序的文章,给了我们再阅读源码时,一个指导性的标志,而不会迷失方向. 很多java开发的小伙伴都会阅读jd ...
SparkStreaming 源码分析
SparkStreaming 分析 (基于1.5版本源码) SparkStreaming 介绍 SparkStreaming是一个流式批处理框架,它的核心执行引擎是Spark,适合处理实时数据与历史数 ...
[原创]java：Stream、Socket等源码分析
一.对于java启动之后的线程的说明 java在启动后会有几个特殊线程: 1.main线程,主线程 2.JVM线程,虚拟机的线程 3.GC垃圾回收线程,是个守护线程 4.EDT&Toolkit ...
jQuery源码分析-02正则表达式-RegExp-常用正则表达式
2.4 常用正则表达式在网上找到一篇广为流传的文章<常用正则表达式>,逐一分析,不足地方进行补充和纠正. 常用的数字正则(严格匹配) 正则含义 ^[1-9]\d*$ 匹配正整数 ^-[1 ...
Libev源码分析02：Libev中的IO监视器
一:代码流程在Libev中,启动一个IO监视器,等待该监视器上的事件触发,然后调用该监视器的回调函数.整个的流程是这样的: 首先调用ev_default_loop初始化struct ev_loop ...
非常适合新手的jq/zepto源码分析02
function isPlainObject(obj) { return isObject(obj) && !isWindow(obj) && Object.getPr ...

随机推荐

Spring AOP深入理解之拦截器调用
Spring AOP深入理解之拦截器调用 Spring AOP代理对象生成回想上一篇博客中:深入理解Spring AOP之二代理对象生成介绍了Spring代理对象是怎样生成的,当中重点介绍了JDK动 ...
【CMS】DedeCMS Error: (PHP 5.3 and above) Please set 'request_order' ini value to include C,G and P (recommended: 'CGP') in php.ini
DedeCMS Error: (PHP 5.3 and above) Please set 'request_order' ini value to include C,G and P (recomm ...
exception javax.crypto.BadPaddingException: Given final block not properly padded
exception javax.crypto.BadPaddingException: Given final block not properly padded CreationTime--20 ...
oracle tnsnames.ora文件用法说明
oracle tnsnames.ora文件用法说明 CreationTime--2018年8月10日08点32分 Author:Marydon 1.用途 oracle客户端所需要的一个文件,通过该 ...
基于jquery ui修改的不依赖第三方的背景透明的弹出div
效果图: 代码: <!doctype html> <html> <head> <meta charset="utf-8"> < ...
Tomcat servers.xml 无注释版
<?xml version='1.0' encoding='utf-8'?> <Server port="8005" shutdown="SHUTDOW ...
Loadrunner脚本编程（3）- 检查点，关联等函数
http://www.360doc.com/content/10/0806/13/1698198_44078093.shtml 1．错误预防和恢复参数默认是用{}括起来的,但也可以指定用< ...
oper
package main.java.com.zte.controller.ems; import java.util.HashMap; import java.util.List; import ja ...
Swift3.0生成二维码、扫描二维码、相册读取二维码，兼容iOS7（结合ZXingObjC）
二维码生成 //MARK: 传进去字符串,生成二维码图片(>=iOS7) text:要生成的二维码内容 WH:二维码高宽 private func creatQRCodeImage(text: ...
eclipse 在weblogic部署的工程项目开启远程调试remote config eclipse远程调试配置
确认你的工程在weblogic中跑的起来,然后再结合eclipse debug配置+java debug运行模式搞个调试. 工程能跑起来没问题后,先在eclipse中,点击debug图标然后点击De ...

DirectStream、Stream的区别-SparkStreaming源码分析02

源码实现

架构

1、 Receiver-based Approach

2、 Direct Approach (No Receivers)

优缺点

DirectStream、Stream的区别-SparkStreaming源码分析02的更多相关文章

随机推荐

热门专题