Flume使用小结

本文介绍初次使用Flume传输数据到MongoDB的过程，内容涉及环境部署和注意事项。

1 环境搭建

需要jdk、flume-ng、mongodb java driver、flume-ng-mongodb-sink
（1）jdk下载地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
（2）flune-ng下载地址：http://www.apache.org/dyn/closer.cgi/flume/1.5.2/apache-flume-1.5.2-bin.tar.gz
（3）mongodb java driver jar包下载地址：https://oss.sonatype.org/content/repositories/releases/org/mongodb/mongo-java-driver/2.13.0/mongo-java-driver-2.13.0.jar
（4）flume-ng-mongodb-sink 源码下载地址：https://github.com/leonlee/flume-ng-mongodb-sink
flume-ng-mongodb-sink 需要自己编译jar包，从github上下载代码，解压之后执行mvn package，即可生成。需要先安装maven用于编译jar包，且机器需要能联网。

2 简单原理介绍

这是一个关于池子的故事。有一个池子，它一头进水，另一头出水，进水口可以配置各种管子，出水口也可以配置各种管子，可以有多个进水口、多个出水口。水术语称为Event，进水口术语称为Source、出水口术语成为Sink、池子术语成为Channel，Source+Channel+Sink，术语称为Agent。如果有需要，还可以把多个Agent连起来。
更多细节参考官方文档：http://flume.apache.org/FlumeDeveloperGuide.html

3 Flume配置

（1） env配置

将mongo-java-driver和flume-ng-mongodb-sink两个jar包放到flume\lib目录下，并将路径加入到flume-env.sh文件的FLUME_CLASSPATH变量中；
JAVA_OPTS变量：加上-Dflume.monitoring.type=http -Dflume.monitoring.port=xxxx，可以在[hostname:xxxx]/metrics 上看到监控信息； -Xms指定JVM初始内存，-Xmx指定JVM最大内存
FLUME_HOME变量：设定FLUME根目录
JAVA_HOME变量：设定JAVA根目录

（2） log配置

在调试时，将日志设置为debug并打到文件：flume.root.logger=DEBUG,LOGFILE

（3）传输配置
采用 Exec Source、file-channel、flume-ng-mongodb-sink。
Source配置举例：

my_agent.sources.my_source_1.channels = my_channel_1

my_agent.sources.my_source_1.type = exec

my_agent.sources.my_source_1.command = python  xxx.py

my_agent.sources.my_source_1.shell = /bin/bash -c

my_agent.sources.my_source_1.restartThrottle = 10000

my_agent.sources.my_source_1.restart = true

my_agent.sources.my_source_1.logStdErr = true

my_agent.sources.my_source_1.batchSize = 1000

my_agent.sources.my_source_1.interceptors = i1 i2 i3

my_agent.sources.my_source_1.interceptors.i1.type = static

my_agent.sources.my_source_1.interceptors.i1.key = db

my_agent.sources.my_source_1.interceptors.i1.value = cswuyg_test

my_agent.sources.my_source_1.interceptors.i2.type = static

my_agent.sources.my_source_1.interceptors.i2.key = collection

my_agent.sources.my_source_1.interceptors.i2.value = cswuyg_test

my_agent.sources.my_source_1.interceptors.i3.type = static

my_agent.sources.my_source_1.interceptors.i3.key = op

my_agent.sources.my_source_1.interceptors.i3.value = upsert

字段说明：
采用exec source，指定执行命令行为python xxx.py，我在xxx.py代码中处理日志，并按照跟flume-ng-mongodb-sink的约定，print出json格式的数据，如果update类操作必须带着_id字段，print出来的日志被当作Event的Body，我再通过interceptors给它加上自定义Event Header；
static interceptors用于为Event Header添加信息，这里我为它加上了db=cswuyg_test、collection=cswuyg_test、op=upsert，这三个key是跟flume-ng-mongodb-sink 约定的，用于指定mongodb中的db、collection名以及操作类型为update。

Channel配置举例：

my_agent.channels.my_channel_1.type = file

my_agent.channels.my_channel_1.checkpointDir = /home/work/flume/file-channel/my_channel_1/checkPoint

my_agent.channels.my_channel_1.useDualCheckpoints = true

my_agent.channels.my_channel_1.backupCheckpointDir = /home/work/flume/file-channel/my_channel_1/checkPoint2

my_agent.channels.my_channel_1.dataDirs = /home/work/flume/file-channel/my_channel_1/data

my_agent.channels.my_channel_1.transactionCapacity = 10000

my_agent.channels.my_channel_1.checkpointInterval = 30000

my_agent.channels.my_channel_1.maxFileSize = 4292870142

my_agent.channels.my_channel_1.minimumRequiredSpace = 524288000

my_agent.channels.my_channel_1.capacity = 100000

字段说明：

要注意的参数是capacity，它指定了池子里可以存放的Event数量，需要根据日志量设置一个合适的值，如果你也采用file-channel，而且磁盘充足，那可以尽可能的设置得大些。
dataDirs指定池子存放的位置，如果可以，选择IO不是那么高的磁盘，可以使用逗号分隔使用多个磁盘目录。

sink配置举例：

my_agent.sinks.my_mongo_1.type = org.riderzen.flume.sink.MongoSink

my_agent.sinks.my_mongo_1.host = xxxhost

my_agent.sinks.my_mongo_1.port = yyyport

my_agent.sinks.my_mongo_1.model = dynamic

my_agent.sinks.my_mongo_1.batch = 10

my_agent.sinks.my_mongo_1.channel = my_channel_1

my_agent.sinks.my_mongo_1.timestampField = _S

字段说明：

　model选择dynamic，表示mongodb的db、collection名字采用Event Header中指定的名字。timestampField 字段用于将json串中指定键的值转换为datetime格式存进mongodb，flume-ng-mongodb-sink不支持嵌套key指定（如：_S.y），但可以自己通过修改sink的代码来实现。

agent配置举例：

my_agent.channels = my_channel_1

my_agent.sources = my_source_1

my_agent.sinks = my_mongo_1

（4）启动

可以写一个control.sh 脚本来控制flume的启动、关闭、重启。
启动demo：
./bin/flume-ng agent --conf ./conf/ --conf-file ./conf/flume.conf -n agent1 > ./start.log 2>&1 &

从此以后，日志数据就从日志文件，通过xxx.py读取，进入到flie-channel，再被flume-ng-mongodb-sink读走，进入到目的地MongoDB Cluster。
搭好基本功能之后，以后需要做的就是调整xxx.py、增强flume-ng-mongodb-sink。

4 其它

1、监控：官方推荐的监控是ganglia：http://sourceforge.net/projects/ganglia/，有图像界面。

2、版本变更：flume 从1.X开始已经不再使用ZooKeeper，在数据可靠性上，提供了E2E（end-to-end）的支持，去掉了重构之前的DFO（store on failure）、BE（best effort）。E2E指的是：在删除channel中的event时，保证event已经传递到了下一个agent或者终点，不过，这里没有提到数据在进入到channel之前如何保证不丢失，像Exec Source这种数据导入channel的方式，需要使用者自己保证。

3、关闭插件：使用Exec Source时，flume重启不会关闭掉旧插件进程，需要自己关闭。

4、Exec Source不能保证数据不丢失，因为这种方式只是把水灌到池子里，不管池子是什么状况，参见https://flume.apache.org/FlumeUserGuide.html#exec-source 的 Warning 部分。但是，Spooling directory source 也不一定是个好方法，监控目录，但是注意不能修改文件的名字，不能出现同名覆盖文件，不要出现只有一半内容的文件。传输完成之后，文件会被重命名为xx.COMPLETED，需要有定时清理脚本把这些文件清理掉。重启会导致出现重复event，因为那些被传输到一半的文件没有被设置为完成状态。

5、传输瓶颈：使用flume+mongodb来安全传输大量数据(每秒万条级别的日志不算大数据量，每天几百G的也不算)，瓶颈会出现在MongoDB上，特别是Update类型的数据传输。

6、需要修改当前的flume-ng-mongodb-sink 插件：（1）让update支持 $setOnInsert；（2）解决update的 $set、$inc为空时，引发exception的bug；（3）解决批量插入时，因其中一条日志有duplicate exception而导致同批插入的后续日志全部被丢弃的bug。

7、flume跟fluentd很类似，但来自hadoop生态的flume更热门，所以我选择flume。

8、批量部署：先把jdk、flume打包成tar，然后借助python 的 paramiko库，将tar包发到各台机器上，解压、运行。

本文所在：http://www.cnblogs.com/cswuyg/p/4498804.html
参考：

1、http://flume.apache.org/FlumeDeveloperGuide.html

2、《Apache Flume: Distributed Log Collection for Hadoop》

Flume使用小结的更多相关文章

Flume参数小结
名词解释: 1.netcat:通过网络端口获取数据,source的实现类 2.logger:将数据显示到控制台,sink的实现类 3.memory: ,channel的实现类 4.capacity:是 ...
Flume NG 配置详解（转）
原文链接:[转]Flume NG 配置详解 (说明,名词对应解释源-Source,接收器-Sink,通道-Channel) 配置设置代理 Flume代理配置存储在本地配置文件.这是一个文本文件格式 ...
Flume学习应用：Java写日志数据到MongoDB
概述 Windows平台:Java写日志到Flume,Flume最终把日志写到MongoDB. 系统环境操作系统:win7 64 JDK:1.6.0_43 资源下载 Maven:3.3.3下载.安装 ...
flume 架构设计优化
对于企业中常用的flume type 概括如下:ource(获取数据源): exec (文件) spoolingdir (文件夹) taildir(文件夹及文件的变动) kafka syslog ht ...
大数据【八】Flume部署
如果说大数据中分布式收集日志用的是什么,你完全可以回答Flume!(面试小心问到哦) 首先说一个复制本服务器文件到目标服务器上,需要目标服务器的ip和密码: 命令: scp filename i ...
第1节 flume：15、flume案例二，通过自定义拦截器实现数据的脱敏
1.7.flume案例二案例需求: 在数据采集之后,通过flume的拦截器,实现不需要的数据过滤掉,并将指定的第一个字段进行加密,加密之后再往hdfs上面保存原始数据与处理之后的数据对比图一 ...
事件序列化器 Flume 的无数据丢失保证，Channel 和事务
小结: 1.Flume 的持久性保证依赖于使用的持久性Channel 的保证通过事件序列化器将Flume事件转化为外部存储格式主要的事件序列化器: 1.文本 2.带有头信息的文本 3.Avro序列 ...
外观模式（Facade） Adapter及Proxy 设计模式之间的关系 flume 云服务商多个sdk的操作 face
小结: 1. 外观模式/门面模式 Facade 往是多个类或其它程序单元,通过重新组合各类及程序单元,对外提供统一的接口/界面. Proxy(代理)注重在为Client-Subject提供一个访问的 ...
从零开始编写自己的C#框架（26）——小结
一直想写个总结,不过实在太忙了,所以一直拖啊拖啊,拖到现在,不过也好,有了这段时间的沉淀,发现自己又有了小小的进步.哈哈...... 原想框架开发的相关开发步骤.文档.代码.功能.部署等都简单的讲过了 ...

随机推荐

hadoop datanode启动失败
问题导读: 1.Hadoop出现问题时,该如何入手查看问题?2.datanode无法启动,我们该怎么解决?3.如何动态加入DataNode或TaskTracker? 一.问题描述当我多次格式化文件系统 ...
Java Servlet(五)：GenericServlet与Servlet、HttpServlet之间的关系(jdk7+tomcat7+eclipse)
本篇主要记录下,对GenericServlet的作用理解,及其与Servlet/HttpServlet之间的关系. 示例完成业务: 1.新建一个login.jsp页面,要求改页面能输入username ...
AJAX-----01远古时期的ajax
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Url中處理空格、特殊字符
publicvoid UrlEncodeTest(){ string url ="C++ C#"; Console.WriteLine(HttpUtility.UrlE ...
PHP排序函数
/** * 对查询结果集进行排序 * http://www.onethink.cn * /Application/Common/Common/function.php * * @access publ ...
PeopleTools预警程序制作
预警程序的概念:在主页上显示一个查询的结果.这个查询就是一个Record. 一.在Application Designer建一个项目,包含所有需要的Record. CUX_REC_BLRY Recor ...
Myeclipse8.5 最新注册码以使用方法（可以用到2015年！！！）
已破解的一组,复制即可!(注册码到2015年哦!) name:LIKEcode:YLR8ZC-855550-6067725176540043 使用方法:把注册码贴到Window-->prefer ...
Git错误non-fast-forward后的冲突解决
Git错误non-fast-forward后的冲突解决当要push代码到git时,出现提示: error:failed to push some refs to ... Dealing with “n ...
内核编译选配（VMware篇）
出现这个错误的原因是相应的驱动程序没有编译进内核,所以在内核启动时,不认识分区. 一.磁盘驱动没编译进内核 VMware5.5.3 的磁盘有两种,一种是IDE的,一种是SCSI的:VMware 你在新 ...
wcf 配置
wcf 开发 [ServiceContract]-----接口定义1 public interface ILog { [OperationContract]------接口定义1 List<Lo ...

Flume使用小结

Flume使用小结的更多相关文章

随机推荐

热门专题