Flume多Sink方案修正

在实际项目中采用http://www.cnblogs.com/moonandstar08/p/6091384.html方案进行布署时，由于系统产生的消费比较大按照原方案进行布署时，随着国外局点不断增加，那么SZ局点的Channel会不断增加，另一方面，在Kafaka集群中创建Partitation时由于无法保证Channel均匀的分布到Kafka集群时，那么在实际的生产环境上布署时会发现：SZ Kafka中的数据会保存N(海外局点数)份在SZ的环境上，很容易造成磁盘中存了N份冗余数据，此时Flume的模型如下图所示：

因此需要对此方案进行修正，修正的思路主要有二种：

一、采用Flume load balance模式

模型原型如下所示：

采用此方案时，SZ本地的Flume配置如下：

#list the sources,sinks and channels int the agent

agent.sources = kafkaSrc

agent.channels = kafkaChannel_sz

agent.sinks = kafkaSink_sz

#source configure

agent.sources.kafkaSrc.type = org.apache.flume.source.kafka.KafkaSource

agent.sources.kafkaSrc.zookeeperConnect = XXX:2181,YYY:2182

agent.sources.kafkaSrc.topic = test_produce

agent.sources.kakkaSrc.groupId = test

agent.sources.kakkaSrc.kafka.consumer.timeout.ms = 100

#use a channel which buffers events in memory

agent.channels.kafkaChannel_sz.type = memory

agent.channels.kafkaChannel_sz.capacity = 1000000

agent.channels.kafkaChannel_sz.transactionCapacity = 100

#sink

agent.sources.kafkaSink_sz.type = org.apache.flume.sink.kafka.KafkaSink

agent.sources.kafkaSink_sz.topic = test_consume

agent.sources.kafkaSink_sz.brokerList= XXX:9092

agent.sources.kafkaSink_sz.batchSize = 5

#bind the source and sink to the channel

agent.sources.kafkaSrc.channels = kafkaChannel_sz

agent.sinks.kafkaSink_sz.channel = kafkaChannel_sz

此方案的实质是通过memory共享数据，当数据量比较大时很容易造成内存溢出。另外，当memory中数据丢失时也无法恢复。

此模型的使用如下所示：

可以参见：http://www.cnblogs.com/lishouguang/p/4558790.html

二、Kafka + Flume Souce groupID来处理

Kafka + Flume Souce groupID方案的模型如下图所示：

Flume相关配置如下：

A.SZ本地搭建Kafka集群，不进行Flume配置；

B.UK本地Flume配置如下：

#Source

agent.sources = kafkaSrc

agent.channels = kafkaChannel_sz

agent.sinks = kafkaSink_uk

#Source configure

agent.sources.kafkaSrc.type = org.apache.flume.source.kafka.KafkaSource

agent.sources.kafkaSrc.channels = kafkaChannel_sz

agent.sources.kafkaSrc.zookeeperConnect = XXX:2181,YYY:2182 (SZ ZOO)

agent.sources.kafkaSrc.topic = k_produce

agent.sources.kafkaSrc.groupId = k_uk

#Channel

agent.channels.kafkaChannel_sz.type = org.apache.flume.channel.kafka.KafkaChannel

agent.channels.kafkaChannel_sz.brokeList = XXX:9092,YYY:9093(UK brokeList)

agent.channels.kafkaChannel_sz.topic = k_uk

agent.channels.kafkaChannel_sz.zookeeperConnect = XXX:2181,YYY:2182(UK ZOO)

agent.channels.kafkaChannel_sz.capacity = 10000

agent.channels.kafkaChannel_sz.transactionCapacity = 1000

#Sink

agent.sinks.kafkaSink_uk.channel = kafkaChannel_sz

agent.sinks.kafkaSink_uk.type = org.apache.flume.sink.kafka.KafkaSink

agent.sinks.kafkaSink_uk.topic = t_uk_consume

agent.sinks,kafkaSink_uk.brokeList = XXX:9092,YYY:9093(UK brokeList)

agent.sinks.kafkaSink_uk.bachSize = 20

C.BR本地Flume配置如下：

#Source

agent.sources = kafkaSrc

agent.channels = kafkaChannel_sz

agent.sinks = kafkaSink_br

#Source configure

agent.sources.kafkaSrc.type = org.apache.flume.source.kafka.KafkaSource

agent.sources.kafkaSrc.channels = kafkaChannel_sz

agent.sources.kafkaSrc.zookeeperConnect = XXX:2181,YYY:2182 (SZ ZOO)

agent.sources.kafkaSrc.topic = k_produce

agent.sources.kafkaSrc.groupId = k_br

#Channel

agent.channels.kafkaChannel_sz.type = org.apache.flume.channel.kafka.KafkaChannel

agent.channels.kafkaChannel_sz.brokeList = XXX:9092,YYY:9093(BR brokeList)

agent.channels.kafkaChannel_sz.topic = k_br

agent.channels.kafkaChannel_sz.zookeeperConnect = XXX:2181,YYY:2182(BR ZOO)

agent.channels.kafkaChannel_sz.capacity = 10000

agent.channels.kafkaChannel_sz.transactionCapacity = 1000

#Sink

agent.sinks.kafkaSink_uk.channel = kafkaChannel_sz

agent.sinks.kafkaSink_uk.type = org.apache.flume.sink.kafka.KafkaSink

agent.sinks.kafkaSink_uk.topic = t_br_consume

agent.sinks,kafkaSink_uk.brokeList = XXX:9092,YYY:9093(BR brokeList)

agent.sinks.kafkaSink_uk.bachSize = 20

参考：http://shiyanjun.cn/archives/915.html

Flume多Sink方案修正的更多相关文章

[bigdata] 使用Flume hdfs sink， hdfs文件未关闭的问题
现象: 执行mapreduce任务时失败通过hadoop fsck -openforwrite命令查看发现有文件没有关闭. [root@com ~]# hadoop fsck -openforwri ...
[Flume][Kafka]Flume 与 Kakfa结合例子（Kakfa 作为flume 的sink 输出到 Kafka topic）
Flume 与 Kakfa结合例子(Kakfa 作为flume 的sink 输出到 Kafka topic) 进行准备工作: $sudo mkdir -p /flume/web_spooldir$su ...
【原创】大叔经验分享（54）flume kudu sink运行一段时间kudu client报错
flume kudu sink运行一段时间报错: 19/05/05 10:15:56 WARN client.ConnectToCluster: Error receiving a response ...
flume中sink到hdfs，文件系统频繁产生文件，文件滚动配置不起作用？
在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下: a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.sinks.k1.h ...
Flume的Sink
一.Logger Sink 记录指定级别(比如INFO,DEBUG,ERROR等)的日志,通常用于调试要求,在 --conf(-c )参数指定的目录下有log4j的配置文件根据设计,logger ...
flume 自定义sink
http://flume.apache.org/FlumeDeveloperGuide.html#sink 看了还是比较好上手的,简单翻译一下 sink的作用是从 Channel 提取 Event ...
Hadoop实战-Flume之Sink Load-balancing(十七)
a1.sources = r1 a1.sinks = k1 k2 a1.channels = c1 # Describe/configure the source a1.sources.r1.type ...
Hadoop实战-Flume之Sink Failover(十六)
a1.sources = r1 a1.sinks = k1 k2 a1.channels = c1 # Describe/configure the source a1.sources.r1.type ...
flume中sink到hdfs，文件系统频繁产生文件和出现乱码，文件滚动配置不起作用？
问题描述解决办法先把这个hdfs目录下的数据删除.并修改配置文件flume-conf.properties,重新采集. # Licensed to the Apache Software Fou ...

随机推荐

CF 327B. Hungry Sequence
B. Hungry Sequence time limit per test 1 second memory limit per test 256 megabytes input standard i ...
第十二章 springboot + mongodb（复杂查询）
简单查询:使用自定义的XxxRepository接口即可.(见第十一章 springboot + mongodb(简单查询)) 复杂查询:使用MongoTemplate以及一些查询条件构建类(Bas ...
" 初窥 " nginx
1. 无题第一次听到Nginx这个词,还是两年前的事儿了,最近常逛CSDN,越来越频繁的接触到这个词汇,今天看了些资料,简单的总结下,作为入门. 2. 背景介绍: Nginx (发音同 engine ...
C#中图片透明【转】
C#中图片透明 /// <summary> /// 处理图片透明操作 /// </summary> /// <param name="srcImage" ...
Byedance AI Camp-笔试题目
最小m段和问题:给定n个整数组成的序列,现在要求将序列分割为m段,每段子序列中的数在原序列中连续排列.如何分割才能使这m段子序列的和的最大值达到最小? Input 第一行输入一个整数t,代表有t组测试 ...
在 Linux 中永久修改 USB 设备权限
问题当我尝试在 Linux 中运行 USB GPS 接收器时我遇到了下面来自 gpsd 的错误.看上去 gpsd 没有权限访问 USB 设备(/dev/ttyUSB0).我该如何永久修改它在Linu ...
笔记本建立wifi热点的实用详细步骤
准备工作: (1) 首先要打开开始菜单--->搜索“services.msc” 并打开(或者用win+R快捷键打开“运行”输入“service.msc”,点击确定)--->找到“WLAN ...
微信小程序自定义数据分析试水
昨晚收到小程序自定义分析的内测邀请,简单试用了一下.说明挺长的,大概是这个意思: 一.定义一系列事件,对其进行统计事件可以对页面中的这些事件进行追踪 click enterPage leavePag ...
[Node.js] Child Process with fork() to handle heavy calculation process
When build server, if we have a API endpoint requires some heavy calculation process, it will block ...
freemarker 模板开发入门
数据模型 scalars标量:从根 root 開始指定它的路径,每级之间用点来分隔. 如:whatnot.fruits sequences 序列:使用数组的方括号方式来訪问一个序列的子变量. 如:an ...

Flume多Sink方案修正

Flume多Sink方案修正的更多相关文章

随机推荐

热门专题