Flume-NG源码阅读之AvroSink

　　org.apache.flume.sink.AvroSink是用来通过网络来传输数据的，可以将event发送到RPC服务器（比如AvroSource），使用AvroSink和AvroSource可以组成分层结构。它继承自AbstractRpcSink extends AbstractSink implements Configurable这跟其他的sink一样都得extends AbstractSink implements Configurable，所以重点也在confgure、start、process、stop这四个方法，实现了initializeRpcClient(Properties props)方法。

　　一、configure(Context context)方法，先获取配置文件中的主机hostname和端口port；设置clientProps的属性hosts=h1，hosts.h1=hostname:port；然后将配置信息中的所有信息放入clientProps中；获取cxnResetInterval表示重复建立连接的时间间隔，默认是0就是不重复建立连接。

　　二、start()方法是调用createConnection()建立连接，如果出现异常就调用destroyConnection()掐断连接，避免资源泄漏。createConnection()方法主要是初始化client = initializeRpcClient(clientProps)以及创建一个线程，并执行在给定延迟cxnResetInterval后执行一次销毁链接destroyConnection()，由于默认cxnResetInterval=0，所以是不会执行这个线程的。这点不是很明白，为什么要销毁？？？initializeRpcClient(clientProps)方法会根据配置文件中的信息进行构造相应的RpcClient：首先会获取"client.type"参数指定的类型可用的有四种(NettyAvroRpcClient(如果没有"client.type"则使用这个作为默认Client)、FailoverRpcClient、LoadBalancingRpcClient、ThriftRpcClient)，实例化之后需要对其在进行必要的配置执行client.configure(properties)进行配置：

　　(1)NettyAvroRpcClient.configure(Properties properties)方法首先会获取锁，检查connState连接状态要保证是没有配置过的；其次获取"batch-size"设置batchSize，如果配置的小于1则使用默认值100；获取“hosts”，如果配置了多个hosts则只使用第一个；获取"hosts."前缀，如果有多个则使用第一个，再解析出hostname和port，构建一个InetSocketAddress的对象address；获取连接超时时间"connect-timeout"，设置connectTimeout，如果配置的小于1000则使用默认值20000，单位是ms；获取相应时间"request-timeout"，设置requestTimeout，如果配置的小于1000，则使用默认值20000，单位ms；获取压缩类型"compression-type"，如果有配置压缩还需要获取压缩的等级compressionLevel；最后调用connect()链接RPC服务器。

　　实际的链接在connect(long timeout, TimeUnit tu)方法中，先构造一个线程池callTimeoutPool；然后根据是否有压缩构造相应的工厂类CompressionChannelFactory(有压缩配置)或者NioClientSocketChannelFactory(无压缩配置)；构造一个

NettyTransceiver(this.address,socketChannelFactory,tu.toMillis(timeout))收发器对象transceiver；根据transceiver返回一个avroClient；最后设置链接状态为READY。

　　(2)FailoverRpcClient.configure(Properties properties)方法会调用configureHosts(Properties properties)方法，这个方法会获取配置文件中的host列表hosts；获取最大尝试次数"max-attempts"，设置maxTries，默认是hosts的大小；获取批量大小

"batch-size"，设置batchSize，如果配置的小于1则使用默认大小100；将此client置为活动的isActive=true。可以看出这个client可以使用多个host。

　　(3)LoadBalancingRpcClient.configure(Properties properties)会获取配置文件中的host列表hosts，且不允许少于两个，否则爆异常；获取主机选择器"host-selector"，有两种内置的选择器：LoadBalancingRpcClient.RoundRobinHostSelector和LoadBalancingRpcClient.RandomOrderHostSelector，默认是ROUND_ROBIN(即RoundRobinHostSelector)轮询的方式(也可以自定义，要实现LoadBalancingRpcClient.HostSelector接口)；获取"backoff"，设置backoff(是否使用推迟算法，就是sink.process出问题后对这个sink设置惩罚时间，在此期间不再认为其可活动)的boolean值(默认false就是不启用)；获取最大推迟时间"maxBackoff"，设置maxBackoff；然后根据选择器是ROUND_ROBIN还是RANDOM选择对应的类并实例化selector，最后设置主机selector.setHosts(hosts)。

　　这两个内置选择器：RoundRobinHostSelector实际使用的是RoundRobinOrderSelector；RandomOrderHostSelector实际使用的是RandomOrderSelector，这两个都在Flume-NG源码阅读之SinkGroups和SinkRunner 这篇文章中有介绍，这里不再说明。

　　(4)ThriftRpcClient.configure(Properties properties)会获取状态锁stateLock.lock()；获取配置文件中的host列表中的第一个，只需要一个；获取批量大小"batch-size"，设置batchSize，如果配置的小于1则使用默认大小100；获取主机名hostname和端口port；获取响应时间requestTimeout，如果小于1000设置为默认的20000ms；获取连接池大小"maxConnections"，设置connectionPoolSize，如果大小小于1则设置为默认的值5；创建连接池管理对象connectionManager= new ConnectionPoolManager(connectionPoolSize)；设置连接状态为READY，connState = State.READY；最后状态锁解锁stateLock.unlock()。

　　这四个Client都是extends AbstractRpcClient implements RpcClient。

　　三、process()方法，代码如下：

   public Status process() throws EventDeliveryException {

     Status status = Status.READY;

     Channel channel = getChannel();    //获得channel

     Transaction transaction = channel.getTransaction();    //创建事务

     try {

       transaction.begin();    //事务开始

       verifyConnection();    //确保存在链接且处于活动状态，如果链接处于非活动状态销毁并重建链接

       List<Event> batch = Lists.newLinkedList();

       for (int i = 0; i < client.getBatchSize(); i++) {    //保证这批次的event数量不可能超过客户端批量处理的最大处理数量

         Event event = channel.take();

         if (event == null) {        //表示channel中没有数据了

           break;

         }

         batch.add(event);    //加入event列表

       }

       int size = batch.size();    //获取这批次取得的event的数量

       int batchSize = client.getBatchSize();        //获取客户端可以批量处理的大小

       if (size == 0) {

         sinkCounter.incrementBatchEmptyCount();

         status = Status.BACKOFF;

       } else {

         if (size < batchSize) {

           sinkCounter.incrementBatchUnderflowCount();

         } else {

           sinkCounter.incrementBatchCompleteCount();

         }

         sinkCounter.addToEventDrainAttemptCount(size);

         client.appendBatch(batch);        //批量处理event

       }

       transaction.commit();        //事务提交

       sinkCounter.addToEventDrainSuccessCount(size);

     } catch (Throwable t) {

       transaction.rollback();    //事务回滚

       if (t instanceof Error) {

         throw (Error) t;

       } else if (t instanceof ChannelException) {

         logger.error("Rpc Sink " + getName() + ": Unable to get event from" +

             " channel " + channel.getName() + ". Exception follows.", t);

         status = Status.BACKOFF;

       } else {

         destroyConnection();        //销毁链接

         throw new EventDeliveryException("Failed to send events", t);

       }

     } finally {

       transaction.close();    //事务关闭

     }

     return status;

   }

　　即使本批次event的数量达不到client.getBatchSize()(channel中没数据了)也会立即发送到RPC服务器。verifyConnection()方法是确保存在链接且处于活动状态，如果链接处于非活动状态销毁并重建链接。如果本批次没有event，则不会想RPC发送任何数据。client.appendBatch(batch)方法是批量发送event。

　　(1)NettyAvroRpcClient.appendBatch(batch)方法会调用appendBatch(events, requestTimeout, TimeUnit.MILLISECONDS)方法，该方法会首先确认链接处于READY状态，否则报错；然后将每个event重新封装成AvroFlumeEvent，放入avroEvents列表中；然后构造一个CallFuture和avroEvents一同封装成一个Callable放入线程池 handshake = callTimeoutPool.submit(callable)中去执行，其call方法内容是avroClient.appendBatch(avroEvents, callFuture)就是在此批量提交到RPC服务器；然后handshake.get(connectTimeout, TimeUnit.MILLISECONDS)在规定时间等待执行的返回结果以及等待append的完成waitForStatusOK(callFuture, timeout, tu)，详细的可看这里Flume的Avro Sink和Avro Source研究之二： Avro Sink ，有对于这两个future更深入的分析。一个批次传输的event的数量是min(batchSize,events.size())

　　(2)FailoverRpcClient.appendBatch(batch)方法会做最多maxTries次尝试直到获取到可以正确发送events的Client，通过localClient=getClient()--》getNextClient()来获取client，这个方法每次会获取hosts中的下一个HostInfo，并使用NettyAvroRpcClient来作为RPC Client，这就又回到了(1)中，这个方法还有一个要注意的就是会先从当前的lastCheckedhost+1位置向后找可以使用的Client，如果不行会再从开始到到lastCheckedhost再找，再找不到就报错。使用localClient.appendBatch(events)来处理events，可参考(1)。

　　(3)LoadBalancingRpcClient.appendBatch(batch)方法，首先会获取可以发送到的RPC服务器的迭代器Iterator<HostInfo> it = selector.createHostIterator()；然后取一个HostInfo,RpcClient client = getClient(host)这个Client和(2)一样都是NettyAvroRpcClient，但是getClient方法会设置一个保存名字和client映射的clientMap；client.appendBatch(events)执行之后就会跳出循环，下一次appendBatch会选择下一个client执行。

　　(4)ThriftRpcClient.appendBatch(batch)方法，从connectionManager.checkout()获取一个client，ConnectionPoolManager类主要维护俩对象availableClients用来存放可用的client(是一个ClientWrapper，维护一个ThriftSourceProtocol.Client client 是用来批量处理event的)、checkedOutClients用来存储从availableClients中拿出的Client表示正在使用的Client；ConnectionPoolManager.checkout()用于从availableClients中remove出client并放入checkedOutClients中，返回这个client；ConnectionPoolManager.checkIn(ClientWrapper client)方法用于将指定的Client从checkedOutClient中remove出并放入availableClients中；ConnectionPoolManager.destroy(ClientWrapper client)用于将checkedOutClients中的指定Client remove并close。appendBatch方法中获得client后，会每次封装min(batchSize,events.size())个event，把他们封装成ThriftFlumeEvent加入thriftFlumeEvents列表，然后如果thriftFlumeEvents>0则执行doAppendBatch(client, thriftFlumeEvents).get(requestTimeout,TimeUnit.MILLISECONDS)阻塞等待传输完毕。doAppendBatch方法会构建一个Callable其call方法执行client.client.appendBatch(e)，将这个Callable放入线程池callTimeoutPool中执行并返回执行结果Future。

　　以上四种RpcClient的append(Event event)方法也比较容易理解，不再讲述。

　　四、stop()方法主要是销毁链接，关闭cxnResetExecutor。

　　其实flume支持avro和thrift两种(目前)传输，上面的(2)和(3)只不过是对(1)的上层业务做了一次封装而已，本质上还是一样的都是avro(基于netty)。同时记住avrosink是支持压缩的。

　　在此，由于博主对avro、netty、thrift并未深入研究过，所以只能从flume层面讲解avrosink，对于某些人来说，可能讲的并不深入，相关内容请自行学习！！

Flume-NG源码阅读之AvroSink的更多相关文章

ng2048源码阅读
ng2048源码阅读 Tutorial: http://www.ng-newsletter.com/posts/building-2048-in-angularjs.html Github: http ...
Pytorch版本yolov3源码阅读
目录 Pytorch版本yolov3源码阅读 1. 阅读test.py 1.1 参数解读 1.2 data文件解析 1.3 cfg文件解析 1.4 根据cfg文件创建模块 1.5 YOLOLayer ...
编译spark源码及塔建源码阅读环境
编译spark源码及塔建源码阅读环境 (一),编译spark源码 1,更换maven的下载镜像: <mirrors>  <mirror> ...
spark源码阅读
根据spark2.2的编译顺序来确定源码阅读顺序,只阅读核心的基本部分. 1.common目录 ①Tags②Sketch③Networking④Shuffle Streaming Service⑤Un ...
Sping学习笔记(一)----Spring源码阅读环境的搭建
idea搭建spring源码阅读环境安装gradle Github下载Spring源码新建学习spring源码的项目 idea搭建spring源码阅读环境安装gradle 在官网中下载gradl ...
JDK源码阅读-------自学笔记(一)(java.lang.Object重写toString源码)
一.前景提要 Object类中定义有public String toString()方法,其返回值是 String 类型. 二.默认返回组成类名+@+16进制的hashcode,当使用打印方法打印的 ...
【原】FMDB源码阅读（三）
[原]FMDB源码阅读(三) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言 FMDB比较优秀的地方就在于对多线程的处理.所以这一篇主要是研究FMDB的多线程处理的实现.而 ...
【原】FMDB源码阅读（二）
[原]FMDB源码阅读(二) 本文转载请注明出处 -- polobymulberry-博客园 1. 前言上一篇只是简单地过了一下FMDB一个简单例子的基本流程,并没有涉及到FMDB的所有方方面面,比 ...
【原】FMDB源码阅读（一）
[原]FMDB源码阅读(一) 本文转载请注明出处 —— polobymulberry-博客园 1. 前言说实话,之前的SDWebImage和AFNetworking这两个组件我还是使用过的,但是对于 ...

随机推荐

网络模型+三次握手+四次挥手+DNS+HTTPS
网络模型+三次握手+四次挥手+DNS+HTTPS 这篇文章十分精华,所以整理一下: 一.网络模型 OSI七层模型,和TCP/IP五层模型(更为普遍) TCP/IP 协议集: 二.TCP协议(传输层)建 ...
Linux下RTL8723BE无线网卡驱动问题解决方法
的RT723BE这款无线网卡模块真是坑爹,岂止是坑爹,简直就是坑爹...... lspci -vnn 看网卡型号一.安装问题: sudo apt-get install linux-headers- ...
密码验证连续多位相同或者顺序字符引发的思考.md
目录密码验证连续多位相同或者顺序字符引发的思考需求思考实现总结参考密码验证连续多位相同或者顺序字符引发的思考需求虽然用户对于这种复杂的密码验证恨之入骨,但是有时出于安全的考虑,我们系 ...
Es 中一个分片一般设置多大
百度Elasticsearch-产品描述-介绍-百度云 https://cloud.baidu.com/doc/BES/FAQ.html#.2C.BB.93.08.C9.7E.2F.A3.E7.35. ...
SQL 将列转成字符串并用逗号分隔
SELECT STUFF((SELECT ',' + FieldName FROM TableName FOR XML PATH('')),1,1,'') AS T 其中的逗号可以换成其它字符转换完 ...
MongoDB-2：MongoDB添加、删除、修改
一.简介 MongoDB是一个高性能,开源,无模式的文档型数据库,是当前NoSQL数据库产品中最热门的一种.数据被分组存储在数据集中,被称为一个集合(Collenction)和对于存储在MongoDB ...
cmd命令行和bat批处理操作windows服务（转载）
一.cmd命令行---进行Windows服务操作 1.安装服务 sc create 服务名 binPath= "C:\Users\Administrator\Desktop\win32srv ...
php RFC兼容的电子邮件地址验证
php中,进行RFC兼容的电子邮件地址验证的方法,有需要的朋友参考下吧. 分享一个可以验证RFC兼容的电子邮件地址的代码,支持RFC1123,2396,3696,4291,4343,5321等的验证. ...
Vincent
歌手Don McClean的Starry Starry Night,也有很多人叫这首歌为<Vincent> 编前:金色的向日葵.燃烧般的丝柏.风吹过的麦田.旋涡状的星体……,一幅幅狂嚣般的 ...
解释一下python中的成员运算符
通过成员运算符‘in’ 和 ‘not in’,我们可以确认一个值是否是另一个值的成员 print('me' in 'disappointment')#True print('us' in 'disap ...

Flume-NG源码阅读之AvroSink

Flume-NG源码阅读之AvroSink的更多相关文章

随机推荐

热门专题