flume使用之exec source收集各端数据汇总到另外一台服务器

转载：http://blog.csdn.net/liuxiao723846/article/details/78133375

一、场景一描述：

线上api接口服务通过log4j往本地磁盘上打印日志，在接口服务器上安装flume，通过exec source收集日志，然后通过avro sink发送到汇总服务器上的flume；汇总服务器上的flume通过avro source接收日志，然后通过file_roll sink写到本地磁盘。

假设：api接口服务器两台 10.153.140.250和10.153.140.251，汇总日志的服务器一台 10.153.137.211

1、api接口服务器上flume配置：

1）在api接口服务器上下载、解压、安装flume：

cd /usr/local/
wget http://mirror.bit.edu.cn/apache/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz
tar -xvzf apache-flume-1.7.9-bin.tar.gz
vim /etc/profile
export PS1="[\u@`/sbin/ifconfig eth0|grep 'inet '|awk -F'[: ]+' '{print $4}'` \W]"'$ '
export FLUME_HOME=/usr/local/apache-flume-1.6.0-bin
export PATH=$PATH:$FLUME_HOME/bin

2）修改flume-env.sh 配置文件:

cd /usr/local/flume/conf

vim flume-env.sh

里面指定java_home，同时在conf目录添加log4j.properties文件；

3）flume配置文件：

注意：这里的sink使用了avro，接口服务器的flume会通过rpc的方式将日志数据发给汇总日志的服务器；

4）启动：

nohup flume-ng agent -c /usr/local/apache-flume-1.7.0-bin/conf -f /usr/local/apache-flume-1.7.0-bin/conf/test-tomcat-log.conf -n agent1 >/dev/null 2>&1 &

2、在汇总日志服务器上flume配置：

1）安装、解压、配置flume：

2）flume配置文件：

说明：

A、这里的source使用的是avro，和api接口的flume进行对接；

B、这里使用file_roll的sink，将日志数据保存到本地磁盘；

注：bind只能写本机ip或者机器名，不能写localhost等。

3）启动：

nohup flume-ng agent -c /usr/local/apache-flume-1.7.0-bin/conf -f /usr/local/apache-flume-1.7.0-bin/conf/tomcat_collection.conf -n collector1 -Dflume.root.logger=INFO,console >/dev/null 2>&1 &

这是，我们会发现/data/tomcat_log_bak 目录下会生成从两台接口服务器上收集回来的日志。

二、场景二描述：

线上api接口服务通过log4j往本地磁盘上打印日志，在接口服务器上安装flume，通过exec source收集日志，然后通过avro sink将日志发送到汇总服务器上的flume；在汇总服务器上的flume，通过avro source接收到日志，然后通过hdfs sink备份到hdfs上。

假设有api接口服务器两台 10.153.140.250和10.153.140.251，汇总日志的服务器一台 10.153.137.211

1、api接口服务器上flume配置：

同上；

2、汇总服务器上flume配置：

1）安装、解压flume：

2）flume配置文件：

agent1.channels = ch1

agent1.sources = s1

agent1.sinks = log-sink1

agent1.sources.s1.type = avro

agent1.sources.s1.bind = 10.153.135.113

agent1.sources.s1.port = 41414

agent1.sources.s1.threads = 5

agent1.sources.s1.channels = ch1

agent1.channels.ch1.type = memory

agent1.channels.ch1.capacity = 100000

agent1.channels.ch1.transactionCapacity = 100000

agent1.channels.ch1.keep-alive = 30

agent1.sinks.log-sink1.type = hdfs

agent1.sinks.log-sink1.hdfs.path = hdfs://hadoop-jy-namenode/data/qytt/flume

agent1.sinks.log-sink1.hdfs.writeFormat = Text

agent1.sinks.log-sink1.hdfs.fileType = DataStream

agent1.sinks.log-sink1.hdfs.rollInterval = 0

agent1.sinks.log-sink1.hdfs.rollSize = 60554432

agent1.sinks.log-sink1.hdfs.rollCount = 0

agent1.sinks.log-sink1.hdfs.batchSize = 1000

agent1.sinks.log-sink1.hdfs.txnEventMax = 1000

agent1.sinks.log-sink1.hdfs.callTimeout = 60000

agent1.sinks.log-sink1.hdfs.appendTimeout = 60000

agent1.sinks.log-sink1.channel = ch1

说明：

A、这里的source使用的是avro，和api接口的flume进行对接；

B、这里的sink使用的是hdfs，可以将数据写入到hdfs上，这里需要指定hadoop集群的namenode地址。（hdfs://hadoop-jy-namenode/）

3）启动：

这时，我们会在hdfs的/data/qytt/flume目录下生成从两台接口服务器上收集回来的日志。

假设有api接口服务器两台 10.153.140.250和10.153.140.251，我们可以在接口服务器上部署flume ，将

汇总日志的服务器一台 10.153.137.211

flume使用之exec source收集各端数据汇总到另外一台服务器的更多相关文章

一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F ...
shell脚本中调用另一个脚本的三种不同方法(fork, exec, source)
fork ( /directory/script.sh) fork是最普通的, 就是直接在脚本里面用/directory/script.sh来调用script.sh这个脚本. 运行的时候开一个sub- ...
fork exec source的区别
参考:http://www.cnblogs.com/bkygg/p/5023072.html 1:fork 运行的时候开一个sub_shell 执行调用的脚本,sub_shell执行的时候,pare ...
在shell脚本中调用另一个脚本的三种不同方法(fork, exec, source)——转载
原文链接:http://blog.chinaunix.net/uid-22548820-id-3181798.html fork ( /directory/script.sh) :如果shell中包含 ...
shell中sh, exec, source, fork, ./的区别
shell中sh, exec, source, fork, ./的区别 1,sh sh test.sh sh是通过创建子进程(subshell)去执行脚本,父进程无法使用子进程中的变量,而子进程对 ...
shell调用另一个脚本的三种方式fork/exec/source
exec和source都属于bash内部命令(builtins commands),在bash下输入man exec或man source可以查看所有的内部命令信息. bash shell的命令分为两 ...
使用PowerShell收集多台服务器的性能计数器
写在前面当管理多台Windows Server服务器时(无论是DB.AD.WEB以及其他的应用服务器),当出现性能或其他问题后,参阅性能计数器都是一个非常好的维度从而推测出问题可能出现的原因 ...
Instruments－查看收集到的数据
由于Xcode调试工具Instruments指南篇幅太长,所以本篇blog继续上篇,介绍对Instruments收集到的数据去分析. 关于数据分析 Instruments不解决你代码中的任何问题,它帮 ...
Dynamics 365 for CRM：CRM与ADFS安装到同一台服务器，需修改ADFS服务端口号
CRM与ADFS安装到同一台服务器时,出现PluginRegistrationTool 及 CRM Outlook Client连接不上,需要修改ADFS的服务端口号,由默认的808修改为809: P ...

随机推荐

Android——ViewPager滑动背景渐变（自定义view，ViewPager）
效果: ActivityBackgroundImage,java(自定义视图) package com.example.chenshuai.test322; import android.conten ...
隐藏的Word快捷键操作
原文地址:http://tieba.baidu.com/p/4163778583 原文来自于: 新文咖从会用电脑开始,Microsoft Office Word就是我们最常用的软件.靠着它,我们写论文 ...
C/C++中的static关键字详解
C++的static有两种用法:面向过程程序设计中的static和面向对象程序设计中的static.前者应用于普通变量和函数,不涉及类:后者主要说明static在类中的作用.一.面向过程设计中的sta ...
Hbase 学习（五）调优
1.垃圾回收器调优当我们往hbase写入数据,它首先写入memstore当中,当menstore的值大于hbase.hregion.memstore.flush.size参数中设置的值后,就会写入硬 ...
【jquery】邮箱自动补全 + 上下翻动
最近在做通行证项目,里面注册模块有邮箱注册,需求方想要在输入 @ 后触发下拉框显示各个邮箱,效果如下: html 代码: <!DOCTYPE HTML> <html lang=&qu ...
MFC——CDC
CDC类定义的是设备上下文对象的类,有称设备环境对象类. Windows使用与设备无关的图形设备环境(DC:Device Context)进行显示. 说到CDC类就不能不提一下GdiObject——图 ...
9、Qt 事件处理机制
原文地址:http://mobile.51cto.com/symbian-272812.htm 在Qt中,事件被封装成一个个对象,所有的事件均继承自抽象类QEvent. 接下来依次谈谈Qt中有谁来产生 ...
自然语言交流系统 phxnet团队创新实训个人博客（七）
使用Lucene 3.0.0的结构遍历TokenStream的内容. 以前版本的Lucene是用TokenStream.next()来遍历TokenStream的内容, 目前的版本稍微修改了一下, 使 ...
Selenium常用操作汇总二——如何操作select下拉框
下面我们来看一下selenium webdriver是如何来处理select下拉框的,以http://passport.51.com/reg2.5p这个页面为例.这个页面中有4个下拉框,下面演示4种选 ...
【转】【项目管理与构建】Maven
在现实的企业中,以低成本.高效率.高质量的完成项目,不仅仅需要技术大牛,企业更加需要管理大牛,管理者只懂技术是远远不够的.当然,管理可以说有很多的方面,例如:对人员的管理,也有对项目的管理等等.如果你 ...

flume使用之exec source收集各端数据汇总到另外一台服务器

flume使用之exec source收集各端数据汇总到另外一台服务器的更多相关文章

随机推荐

热门专题