Flume多Sink方案修正
在实际项目中采用http://www.cnblogs.com/moonandstar08/p/6091384.html方案进行布署时,由于系统产生的消费比较大按照原方案进行布署时,随着国外局点不断增加,那么SZ局点的Channel会不断增加,另一方面,在Kafaka集群中创建Partitation时由于无法保证Channel均匀的分布到Kafka集群时,那么在实际的生产环境上布署时会发现:SZ Kafka中的数据会保存N(海外局点数)份在SZ的环境上,很容易造成磁盘中存了N份冗余数据,此时Flume的模型如下图所示:

因此需要对此方案进行修正,修正的思路主要有二种:
一、采用Flume load balance模式
模型原型如下所示:

采用此方案时,SZ本地的Flume配置如下:
#list the sources,sinks and channels int the agent
agent.sources = kafkaSrc
agent.channels = kafkaChannel_sz
agent.sinks = kafkaSink_sz #source configure
agent.sources.kafkaSrc.type = org.apache.flume.source.kafka.KafkaSource
agent.sources.kafkaSrc.zookeeperConnect = XXX:2181,YYY:2182
agent.sources.kafkaSrc.topic = test_produce
agent.sources.kakkaSrc.groupId = test
agent.sources.kakkaSrc.kafka.consumer.timeout.ms = 100 #use a channel which buffers events in memory
agent.channels.kafkaChannel_sz.type = memory
agent.channels.kafkaChannel_sz.capacity = 1000000
agent.channels.kafkaChannel_sz.transactionCapacity = 100 #sink
agent.sources.kafkaSink_sz.type = org.apache.flume.sink.kafka.KafkaSink
agent.sources.kafkaSink_sz.topic = test_consume
agent.sources.kafkaSink_sz.brokerList= XXX:9092
agent.sources.kafkaSink_sz.batchSize = 5 #bind the source and sink to the channel
agent.sources.kafkaSrc.channels = kafkaChannel_sz
agent.sinks.kafkaSink_sz.channel = kafkaChannel_sz
此方案的实质是通过memory共享数据,当数据量比较大时很容易造成内存溢出。另外,当memory中数据丢失时也无法恢复。
此模型的使用如下所示: 
可以参见:http://www.cnblogs.com/lishouguang/p/4558790.html
二、Kafka + Flume Souce groupID来处理
Kafka + Flume Souce groupID方案的模型如下图所示:

Flume相关配置如下:
A.SZ本地搭建Kafka集群,不进行Flume配置;
B.UK本地Flume配置如下:
#Source
agent.sources = kafkaSrc
agent.channels = kafkaChannel_sz
agent.sinks = kafkaSink_uk #Source configure
agent.sources.kafkaSrc.type = org.apache.flume.source.kafka.KafkaSource
agent.sources.kafkaSrc.channels = kafkaChannel_sz
agent.sources.kafkaSrc.zookeeperConnect = XXX:2181,YYY:2182 (SZ ZOO)
agent.sources.kafkaSrc.topic = k_produce
agent.sources.kafkaSrc.groupId = k_uk #Channel
agent.channels.kafkaChannel_sz.type = org.apache.flume.channel.kafka.KafkaChannel
agent.channels.kafkaChannel_sz.brokeList = XXX:9092,YYY:9093(UK brokeList)
agent.channels.kafkaChannel_sz.topic = k_uk
agent.channels.kafkaChannel_sz.zookeeperConnect = XXX:2181,YYY:2182(UK ZOO)
agent.channels.kafkaChannel_sz.capacity = 10000
agent.channels.kafkaChannel_sz.transactionCapacity = 1000 #Sink
agent.sinks.kafkaSink_uk.channel = kafkaChannel_sz
agent.sinks.kafkaSink_uk.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.kafkaSink_uk.topic = t_uk_consume
agent.sinks,kafkaSink_uk.brokeList = XXX:9092,YYY:9093(UK brokeList)
agent.sinks.kafkaSink_uk.bachSize = 20
C.BR本地Flume配置如下:
#Source
agent.sources = kafkaSrc
agent.channels = kafkaChannel_sz
agent.sinks = kafkaSink_br #Source configure
agent.sources.kafkaSrc.type = org.apache.flume.source.kafka.KafkaSource
agent.sources.kafkaSrc.channels = kafkaChannel_sz
agent.sources.kafkaSrc.zookeeperConnect = XXX:2181,YYY:2182 (SZ ZOO)
agent.sources.kafkaSrc.topic = k_produce
agent.sources.kafkaSrc.groupId = k_br #Channel
agent.channels.kafkaChannel_sz.type = org.apache.flume.channel.kafka.KafkaChannel
agent.channels.kafkaChannel_sz.brokeList = XXX:9092,YYY:9093(BR brokeList)
agent.channels.kafkaChannel_sz.topic = k_br
agent.channels.kafkaChannel_sz.zookeeperConnect = XXX:2181,YYY:2182(BR ZOO)
agent.channels.kafkaChannel_sz.capacity = 10000
agent.channels.kafkaChannel_sz.transactionCapacity = 1000 #Sink
agent.sinks.kafkaSink_uk.channel = kafkaChannel_sz
agent.sinks.kafkaSink_uk.type = org.apache.flume.sink.kafka.KafkaSink
agent.sinks.kafkaSink_uk.topic = t_br_consume
agent.sinks,kafkaSink_uk.brokeList = XXX:9092,YYY:9093(BR brokeList)
agent.sinks.kafkaSink_uk.bachSize = 20
参考:http://shiyanjun.cn/archives/915.html
Flume多Sink方案修正的更多相关文章
- [bigdata] 使用Flume hdfs sink, hdfs文件未关闭的问题
现象: 执行mapreduce任务时失败 通过hadoop fsck -openforwrite命令查看发现有文件没有关闭. [root@com ~]# hadoop fsck -openforwri ...
- [Flume][Kafka]Flume 与 Kakfa结合例子(Kakfa 作为flume 的sink 输出到 Kafka topic)
Flume 与 Kakfa结合例子(Kakfa 作为flume 的sink 输出到 Kafka topic) 进行准备工作: $sudo mkdir -p /flume/web_spooldir$su ...
- 【原创】大叔经验分享(54)flume kudu sink运行一段时间kudu client报错
flume kudu sink运行一段时间报错: 19/05/05 10:15:56 WARN client.ConnectToCluster: Error receiving a response ...
- flume中sink到hdfs,文件系统频繁产生文件,文件滚动配置不起作用?
在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下: a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.sinks.k1.h ...
- Flume的Sink
一.Logger Sink 记录指定级别(比如INFO,DEBUG,ERROR等)的日志,通常用于调试 要求,在 --conf(-c )参数指定的目录下有log4j的配置文件 根据设计,logger ...
- flume 自定义sink
http://flume.apache.org/FlumeDeveloperGuide.html#sink 看了 还是比较好上手的,简单翻译一下 sink的作用是从 Channel 提取 Event ...
- Hadoop实战-Flume之Sink Load-balancing(十七)
a1.sources = r1 a1.sinks = k1 k2 a1.channels = c1 # Describe/configure the source a1.sources.r1.type ...
- Hadoop实战-Flume之Sink Failover(十六)
a1.sources = r1 a1.sinks = k1 k2 a1.channels = c1 # Describe/configure the source a1.sources.r1.type ...
- flume中sink到hdfs,文件系统频繁产生文件和出现乱码,文件滚动配置不起作用?
问题描述 解决办法 先把这个hdfs目录下的数据删除.并修改配置文件flume-conf.properties,重新采集. # Licensed to the Apache Software Fou ...
随机推荐
- CF 327B. Hungry Sequence
B. Hungry Sequence time limit per test 1 second memory limit per test 256 megabytes input standard i ...
- 第十二章 springboot + mongodb(复杂查询)
简单查询:使用自定义的XxxRepository接口即可.(见 第十一章 springboot + mongodb(简单查询)) 复杂查询:使用MongoTemplate以及一些查询条件构建类(Bas ...
- " 初窥 " nginx
1. 无题 第一次听到Nginx这个词,还是两年前的事儿了,最近常逛CSDN,越来越频繁的接触到这个词汇,今天看了些资料,简单的总结下,作为入门. 2. 背景介绍: Nginx (发音同 engine ...
- C#中图片透明【转】
C#中图片透明 /// <summary> /// 处理图片透明操作 /// </summary> /// <param name="srcImage" ...
- Byedance AI Camp-笔试题目
最小m段和问题:给定n个整数组成的序列,现在要求将序列分割为m段,每段子序列中的数在原序列中连续排列.如何分割才能使这m段子序列的和的最大值达到最小? Input 第一行输入一个整数t,代表有t组测试 ...
- 在 Linux 中永久修改 USB 设备权限
问题 当我尝试在 Linux 中运行 USB GPS 接收器时我遇到了下面来自 gpsd 的错误.看上去 gpsd 没有权限访问 USB 设备(/dev/ttyUSB0).我该如何永久修改它在Linu ...
- 笔记本建立wifi热点的实用详细步骤
准备工作: (1) 首先要打开开始菜单--->搜索“services.msc” 并打开(或者用win+R快捷键打开“运行”输入“service.msc”,点击确定)--->找到“WLAN ...
- 微信小程序自定义数据分析试水
昨晚收到小程序自定义分析的内测邀请,简单试用了一下.说明挺长的,大概是这个意思: 一.定义一系列事件,对其进行统计 事件可以对页面中的这些事件进行追踪 click enterPage leavePag ...
- [Node.js] Child Process with fork() to handle heavy calculation process
When build server, if we have a API endpoint requires some heavy calculation process, it will block ...
- freemarker 模板开发入门
数据模型 scalars标量:从根 root 開始指定它的路径,每级之间用点来分隔. 如:whatnot.fruits sequences 序列:使用数组的方括号方式来訪问一个序列的子变量. 如:an ...