Flume多Sink方案修正

在实际项目中采用http://www.cnblogs.com/moonandstar08/p/6091384.html方案进行布署时，由于系统产生的消费比较大按照原方案进行布署时，随着国外局点不断增加，那么SZ局点的Channel会不断增加，另一方面，在Kafaka集群中创建Partitation时由于无法保证Channel均匀的分布到Kafka集群时，那么在实际的生产环境上布署时会发现：SZ Kafka中的数据会保存N(海外局点数)份在SZ的环境上，很容易造成磁盘中存了N份冗余数据，此时Flume的模型如下图所示：

因此需要对此方案进行修正，修正的思路主要有二种：

一、采用Flume load balance模式

模型原型如下所示：

采用此方案时，SZ本地的Flume配置如下：

#list the sources,sinks and channels int the agent

agent.sources = kafkaSrc

agent.channels = kafkaChannel_sz

agent.sinks = kafkaSink_sz

#source configure

agent.sources.kafkaSrc.type = org.apache.flume.source.kafka.KafkaSource

agent.sources.kafkaSrc.zookeeperConnect = XXX:2181,YYY:2182

agent.sources.kafkaSrc.topic = test_produce

agent.sources.kakkaSrc.groupId = test

agent.sources.kakkaSrc.kafka.consumer.timeout.ms = 100

#use a channel which buffers events in memory

agent.channels.kafkaChannel_sz.type = memory

agent.channels.kafkaChannel_sz.capacity = 1000000

agent.channels.kafkaChannel_sz.transactionCapacity = 100

#sink

agent.sources.kafkaSink_sz.type = org.apache.flume.sink.kafka.KafkaSink

agent.sources.kafkaSink_sz.topic = test_consume

agent.sources.kafkaSink_sz.brokerList= XXX:9092

agent.sources.kafkaSink_sz.batchSize = 5

#bind the source and sink to the channel

agent.sources.kafkaSrc.channels = kafkaChannel_sz

agent.sinks.kafkaSink_sz.channel = kafkaChannel_sz

此方案的实质是通过memory共享数据，当数据量比较大时很容易造成内存溢出。另外，当memory中数据丢失时也无法恢复。

此模型的使用如下所示：

可以参见：http://www.cnblogs.com/lishouguang/p/4558790.html

二、Kafka + Flume Souce groupID来处理

Kafka + Flume Souce groupID方案的模型如下图所示：

Flume相关配置如下：

A.SZ本地搭建Kafka集群，不进行Flume配置；

B.UK本地Flume配置如下：

#Source

agent.sources = kafkaSrc

agent.channels = kafkaChannel_sz

agent.sinks = kafkaSink_uk

#Source configure

agent.sources.kafkaSrc.type = org.apache.flume.source.kafka.KafkaSource

agent.sources.kafkaSrc.channels = kafkaChannel_sz

agent.sources.kafkaSrc.zookeeperConnect = XXX:2181,YYY:2182 (SZ ZOO)

agent.sources.kafkaSrc.topic = k_produce

agent.sources.kafkaSrc.groupId = k_uk

#Channel

agent.channels.kafkaChannel_sz.type = org.apache.flume.channel.kafka.KafkaChannel

agent.channels.kafkaChannel_sz.brokeList = XXX:9092,YYY:9093(UK brokeList)

agent.channels.kafkaChannel_sz.topic = k_uk

agent.channels.kafkaChannel_sz.zookeeperConnect = XXX:2181,YYY:2182(UK ZOO)

agent.channels.kafkaChannel_sz.capacity = 10000

agent.channels.kafkaChannel_sz.transactionCapacity = 1000

#Sink

agent.sinks.kafkaSink_uk.channel = kafkaChannel_sz

agent.sinks.kafkaSink_uk.type = org.apache.flume.sink.kafka.KafkaSink

agent.sinks.kafkaSink_uk.topic = t_uk_consume

agent.sinks,kafkaSink_uk.brokeList = XXX:9092,YYY:9093(UK brokeList)

agent.sinks.kafkaSink_uk.bachSize = 20

C.BR本地Flume配置如下：

#Source

agent.sources = kafkaSrc

agent.channels = kafkaChannel_sz

agent.sinks = kafkaSink_br

#Source configure

agent.sources.kafkaSrc.type = org.apache.flume.source.kafka.KafkaSource

agent.sources.kafkaSrc.channels = kafkaChannel_sz

agent.sources.kafkaSrc.zookeeperConnect = XXX:2181,YYY:2182 (SZ ZOO)

agent.sources.kafkaSrc.topic = k_produce

agent.sources.kafkaSrc.groupId = k_br

#Channel

agent.channels.kafkaChannel_sz.type = org.apache.flume.channel.kafka.KafkaChannel

agent.channels.kafkaChannel_sz.brokeList = XXX:9092,YYY:9093(BR brokeList)

agent.channels.kafkaChannel_sz.topic = k_br

agent.channels.kafkaChannel_sz.zookeeperConnect = XXX:2181,YYY:2182(BR ZOO)

agent.channels.kafkaChannel_sz.capacity = 10000

agent.channels.kafkaChannel_sz.transactionCapacity = 1000

#Sink

agent.sinks.kafkaSink_uk.channel = kafkaChannel_sz

agent.sinks.kafkaSink_uk.type = org.apache.flume.sink.kafka.KafkaSink

agent.sinks.kafkaSink_uk.topic = t_br_consume

agent.sinks,kafkaSink_uk.brokeList = XXX:9092,YYY:9093(BR brokeList)

agent.sinks.kafkaSink_uk.bachSize = 20

参考：http://shiyanjun.cn/archives/915.html

Flume多Sink方案修正的更多相关文章

[bigdata] 使用Flume hdfs sink， hdfs文件未关闭的问题
现象: 执行mapreduce任务时失败通过hadoop fsck -openforwrite命令查看发现有文件没有关闭. [root@com ~]# hadoop fsck -openforwri ...
[Flume][Kafka]Flume 与 Kakfa结合例子（Kakfa 作为flume 的sink 输出到 Kafka topic）
Flume 与 Kakfa结合例子(Kakfa 作为flume 的sink 输出到 Kafka topic) 进行准备工作: $sudo mkdir -p /flume/web_spooldir$su ...
【原创】大叔经验分享（54）flume kudu sink运行一段时间kudu client报错
flume kudu sink运行一段时间报错: 19/05/05 10:15:56 WARN client.ConnectToCluster: Error receiving a response ...
flume中sink到hdfs，文件系统频繁产生文件，文件滚动配置不起作用？
在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下: a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.sinks.k1.h ...
Flume的Sink
一.Logger Sink 记录指定级别(比如INFO,DEBUG,ERROR等)的日志,通常用于调试要求,在 --conf(-c )参数指定的目录下有log4j的配置文件根据设计,logger ...
flume 自定义sink
http://flume.apache.org/FlumeDeveloperGuide.html#sink 看了还是比较好上手的,简单翻译一下 sink的作用是从 Channel 提取 Event ...
Hadoop实战-Flume之Sink Load-balancing(十七)
a1.sources = r1 a1.sinks = k1 k2 a1.channels = c1 # Describe/configure the source a1.sources.r1.type ...
Hadoop实战-Flume之Sink Failover(十六)
a1.sources = r1 a1.sinks = k1 k2 a1.channels = c1 # Describe/configure the source a1.sources.r1.type ...
flume中sink到hdfs，文件系统频繁产生文件和出现乱码，文件滚动配置不起作用？
问题描述解决办法先把这个hdfs目录下的数据删除.并修改配置文件flume-conf.properties,重新采集. # Licensed to the Apache Software Fou ...

随机推荐

iOS:UITableViewCell自定义单元格
UITableViewCell:自定义的单元格,可以在xib中创建单元格,也可以在storyBorad中创建单元格.有四种创建方式 <1>在storyBorad中创建的单元格,它是静态的单 ...
Objective-C：继承、分类(Category、extension)、协议(protocol)，个人理解，仅供参考
总结:继承.分类(Category.extension).协议(protocol) 一.继承: (1)特点: 继承多用于一般父类中的方法功能比较齐全,子类从父类继承过来使用,可以省略很多重复的代码 ...
比较windows phone 的回退事件与android的回退事件
public void onBackPressed() { finish(); } 如果要做一个页面导航的功能的话,就我而言,认为,windows phone开发比android更加人性化,更加傻瓜化 ...
Android -- Drawable && Bitmap
Bitmap转Drawable Bitmap bm=xxx; BitmapDrawable bd=new BitmapDrawable(bm); 因为BtimapDrawable是Drawable的子 ...
Typescript declaration: Merge a class and an interface
参考: https://stackoverflow.com/questions/47670959/typescript-declaration-merge-a-class-and-an-interfa ...
Jquery 应用积累
1.控制div显隐 $("#id").show()表示display:block, $("#id").hide()表示display:none; $(" ...
Java从零开始学二十三(集合Map接口)
一.Map接口 Collection.Set.List接口都属于单值的操作,即:每次只能操作一个对象,而Map与它们不同的是,每次操作的是一对对象,即二元偶对象,Map中的每个元素都使用key à v ...
Uubntu14.04下 Hadoop集群环境搭建
1机器信息 master192.168.3.10 hadoop/ hadoop slave1192.168.3.11 hadoop/ hadoop slave2192.168.3.12 hadoop/ ...
学习中遇到的c++问题，持续更新
原文请訪问我的博客:http://xiaoshig.sinaapp.com/ 向上取整使用ceil函数.ceil(x)返回的是大于x的最小整数.如: ceil(2.5) = 3 ceil(-2.5) ...
HDU1212 Big Number 【同余定理】
Big Number Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total ...

Flume多Sink方案修正

Flume多Sink方案修正的更多相关文章

随机推荐

热门专题