日志收集-Flume-ng-mongodb-sink

本文主要介绍使用Flume传输数据到MongoDB的过程，内容涉及环境部署和注意事项。

一、环境搭建

1、flune-ng下载地址：http://www.apache.org/dyn/closer.cgi/flume/1.5.2/apache-flume-1.5.2-bin.tar.gz
2、mongodb java driver jar包下载地址：https://oss.sonatype.org/content/repositories/releases/org/mongodb/mongo-java-driver/2.13.0/mongo-java-driver-2.13.0.jar
3、flume-ng-mongodb-sink 源码下载地址：https://github.com/leonlee/flume-ng-mongodb-sink
flume-ng-mongodb-sink 需要自己编译jar包，从github上下载代码，解压之后执行mvn package，即可生成。需要先安装maven用于编译jar包

二、Flume配置

1、env配置

将mongo-java-driver和flume-ng-mongodb-sink两个jar包放到flume\lib目录下，并将路径加入到flume-env.sh文件的FLUME_CLASSPATH变量中；
JAVA_OPTS变量：加上-Dflume.monitoring.type=http -Dflume.monitoring.port=xxxx，可以在[hostname:xxxx]/metrics 上看到监控信息； -Xms指定JVM初始内存，-Xmx指定JVM最大内存
FLUME_HOME变量：设定FLUME根目录
JAVA_HOME变量：设定JAVA根目录

2、 log配置

在调试时，将日志设置为debug并打到文件：flume.root.logger=DEBUG,LOGFILE

3、传输配置

采用 Exec Source、file-channel、flume-ng-mongodb-sink

my_agent.sources.my_source_1.channels = my_channel_1

my_agent.sources.my_source_1.type = exec

my_agent.sources.my_source_1.command = python  xxx.py

my_agent.sources.my_source_1.shell = /bin/bash -c

my_agent.sources.my_source_1.restartThrottle = 10000

my_agent.sources.my_source_1.restart = true

my_agent.sources.my_source_1.logStdErr = true

my_agent.sources.my_source_1.batchSize = 1000

my_agent.sources.my_source_1.interceptors = i1 i2 i3

my_agent.sources.my_source_1.interceptors.i1.type = static

my_agent.sources.my_source_1.interceptors.i1.key = db

my_agent.sources.my_source_1.interceptors.i1.value = cswuyg_test

my_agent.sources.my_source_1.interceptors.i2.type = static

my_agent.sources.my_source_1.interceptors.i2.key = collection

my_agent.sources.my_source_1.interceptors.i2.value = cswuyg_test

my_agent.sources.my_source_1.interceptors.i3.type = static

my_agent.sources.my_source_1.interceptors.i3.key = op

my_agent.sources.my_source_1.interceptors.i3.value = upsert

字段说明：采用exec source，指定执行命令行为python xxx.py，在xxx.py代码中处理日志，并按照跟flume-ng-mongodb-sink的约定，print出json格式的数据，如果update类操作必须带着_id字段，print出来的日志被当作Event的Body，我再通过interceptors给它加上自定义Event Header；

static interceptors用于为Event Header添加信息，这里我为它加上了db=cswuyg_test、collection=cswuyg_test、op=upsert，这三个key是跟flume-ng-mongodb-sink 约定的，用于指定mongodb中的db、collection名以及操作类型为update。

my_agent.channels.my_channel_1.type = file

my_agent.channels.my_channel_1.checkpointDir = /home/work/flume/file-channel/my_channel_1/checkPoint

my_agent.channels.my_channel_1.useDualCheckpoints = true

my_agent.channels.my_channel_1.backupCheckpointDir = /home/work/flume/file-channel/my_channel_1/checkPoint2

my_agent.channels.my_channel_1.dataDirs = /home/work/flume/file-channel/my_channel_1/data

my_agent.channels.my_channel_1.transactionCapacity = 10000

my_agent.channels.my_channel_1.checkpointInterval = 30000

my_agent.channels.my_channel_1.maxFileSize = 4292870142

my_agent.channels.my_channel_1.minimumRequiredSpace = 524288000

my_agent.channels.my_channel_1.capacity = 100000

sink配置：

my_agent.sinks.my_mongo_1.type = org.riderzen.flume.sink.MongoSink

my_agent.sinks.my_mongo_1.host = xxxhost

my_agent.sinks.my_mongo_1.port = yyyport

my_agent.sinks.my_mongo_1.model = DYNAMIC/SINGLE ---查看源码仅支持此二种方式,并且必须大小
my_agent.sinks.my_mongo_1.db = XXX --mongo表名,默认名称为events
my_agent.sinks.my_mongo_1.username = XXX --mongo用户名
my_agent.sinks.my_mongo_1.password = YYY --mongo密码
my_agent.sinks.my_mongo_1.collecion = log

my_agent.sinks.my_mongo_1.batch = 10

my_agent.sinks.my_mongo_1.channel = my_channel_1

my_agent.sinks.my_mongo_1.timestampField = _S

参见：http://www.cnblogs.com/cswuyg/p/4498804.html

日志收集-Flume-ng-mongodb-sink的更多相关文章

Flume 1.5日志收集和存款mongodb安装结构
Flume该演示是不是说.你可以自己搜索. 但现在的互联网主要是Flume 1.4前版本号的信息.Flume 1.5在轰动的大变化.假设你准备尝试,我在这里给大家介绍一下程序最小化结构,和使用Mong ...
分布式日志收集系统 —— Flume
一.Flume简介 Apache Flume 是一个分布式,高可用的数据收集系统.它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集.Flume 分为 NG 和 OG ( ...
分布式日志收集收集系统：Flume(转)
Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力.Fl ...
Flume日志收集系统架构详解--转
2017-09-06 朱洁大数据和云计算技术任何一个生产系统在运行过程中都会产生大量的日志,日志往往隐藏了很多有价值的信息.在没有分析方法之前,这些日志存储一段时间后就会被清理.随着技术的发展和 ...
海量日志收集利器 —— Flume
Flume 是什么? Flume是一个分布式.可靠.和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的 ...
日志收集系统Flume及其应用
Apache Flume概述 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume 支持定制各类数据发送方,用于收集各类型数据:同时,Fl ...
【转】flume+kafka+zookeeper 日志收集平台的搭建
from:https://my.oschina.net/jastme/blog/600573 flume+kafka+zookeeper 日志收集平台的搭建收藏 jastme 发表于 10个月前阅 ...
【转】Flume日志收集
from:http://www.cnblogs.com/oubo/archive/2012/05/25/2517751.html Flume日志收集一.Flume介绍 Flume是一个分布式.可 ...
Flume -- 开源分布式日志收集系统
Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. 一.Flum ...
基于Flume的美团日志收集系统(二)改进和优化
在<基于Flume的美团日志收集系统(一)架构和设计>中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计.在本节中,我们将会讲述在实际部署和使用过程中遇到的问 ...

随机推荐

sublime同步文件与siderbar
有时候,打开了sider bar,想和Eclipse.idea一样,每打开一个tab,就可以在左侧的sider bar 目录上面看到我当前的位置,于是找到了一个插件. SyncedSideBar 安装 ...
[Javascript] Avoiding Mutations in JavaScript with Immutable Data Structures
To demonstrate the difference between mutability and immutability, imagine taking a drink from a gla ...
“服务器推”技术【转载+整理】
原文地址本文内容 "服务器推(server-push)"技术的应用基于客户端套接口的"服务器推"技术基于 HTTP 长连接的"服务器推" ...
Android输出日志Log类
android.util.Log常用的方法有以下5个: Log.v() Log.d() Log.i() Log.w() 以及 Log.e().根据首字母分别对应VERBOSE,DEBUG,INFO,W ...
@SuppressLint("NewApi"）和@TargetApi()的区别
在Android代码中,我们有时会使用比我们在AndroidManifest中设置的android:minSdkVersion版本更高的方法,此时编译器会提示警告, 解决方法是在方法上加上@Suppr ...
基于redis分布式缓存实现（新浪微博案例）转
第一:Redis 是什么? Redis是基于内存.可持久化的日志型.Key-Value数据库高性能存储系统,并提供多种语言的API. 第二:出现背景数据结构(Data Structure)需求越来 ...
创建Maven Module时报错：The parent project must have a packaging type of POM
创建Maven Module时报错:The parent project must have a packaging type of POM 解决的办法,是把父项目的Packaging改成pom:
ashx 一般处理程序中使用 Session
项目中,调用 ashx 一般处理程序获取行政区划Json数据,在 ashx 里面有用到Session,但是总无法获取 Session . 查阅资料得知 ashx 一般处理程序要使用 Session,必 ...
转：nginx基础概念（connection）
在nginx中connection就是对tcp连接的封装,其中包括连接的socket,读事件,写事件.利用nginx封装的connection,我们可以很方便的使用nginx来处理与连接相关的事情,比 ...
scala VS python2 (linux or shell)
PS:只考虑最新版的scala和python2.x,由于python3.x和python2.x区别比较大,而且主流的一些开源项目都用的python2,目前python2一点点在兼容python3 1. ...

日志收集-Flume-ng-mongodb-sink

日志收集-Flume-ng-mongodb-sink的更多相关文章

随机推荐

热门专题