flume-agent实例

flume
   多种适配，多样化的数据收集
   核心概念
       event：一条消息
       client：访问者
       agent：
           重要组件Sources、Channels、Sinks。Interspactor、Selecter


kafka
   吞吐量大，高并发场景下使用

注意：flume的agent配置文件不允许有空格。

一、flume打印内容到控制台
       1、创建一个agent(使用avroSource接收网络流在flume的控制台打印)配置文件agent1.conf
           cd /usr/local/flume/
           vi /conf/agent1.conf
               agent1.sources=as1
               agent1.channels=c1
               agent1.sinks=s1

agent1.sources.as1.type=avro
               agent1.sources.as1.bind=0.0.0.0           ##接收任意ip发送的数据
               agent1.sources.as1.port=21111           ##在21111端口上监听
               agent1.sources.as1.channels=c1
               agent1.channels.c1.type=memory

agent1.sinks.s1.type=logger
               agent1.sinks.s1.channel=c1
       2、启动agent1(每30秒检查agent1.conf文件一次，检查该文件是否有变化，有变化则马上生效)，将输出打印在控制台上
           bin/flume-ng agent --conf conf/ -Dflume.root.logger=DEBUG,console -n agent1 -f conf/agent1.conf
       3、使用java代码生产log4j日志输出到flume

       3、验证agent，一种是flume控制台测试，一种是java代码通过log4j写日志
           1)bin/flume-ng avro-client --conf conf/ -H localhost -p 21111 -F ~/a       ##将~目录下的a文件内容写入到flume
           2)使用java类将log4j的日志写入到flume的agent中
               log4j.properties配置文件
                   log4j.rootLogger=INFO,flume
                   log4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppender
                   log4j.appender.flume.Hostname = 192.168.1.33                                   ##flume启动agent所在的节点ip
                   log4j.appender.flume.Port = 21111                                               ##flume启动agent监听的端口号
                   log4j.appender.flume.UnsafeMode = true

               java代码
                   public class FlumeProducer {
                       public static void main(String[] args) throws Exception {
                           final Logger logger = Logger.getLogger(FlumeProducer.class);
                           while (true) {
                               logger.info("logger datetime :" + System.currentTimeMillis());
                               Thread.sleep(1000);
                           }
                       }
                   }

二、flume生成avroLog文件写入到hdfs中，存放到不同的/IP/日期/文件夹中
       1、创建一个agent(使用avroSource接收网络流写入到hdfs)配置文件agent2.conf
           cd /usr/local/flume/
           vi /conf/agent2.conf
               agent2.sources=source1
               agent2.channels=channel1
               agent2.sinks=sink1

agent2.sources.source1.type=avro
               agent2.sources.source1.bind=0.0.0.0
               agent2.sources.source1.port=44444
               agent2.sources.source1.channels=channel1

               agent2.sources.source1.interceptors = i1 i2
               agent2.sources.source1.interceptors.i1.type = org.apache.flume.interceptor.HostInterceptor$Builder
               agent2.sources.source1.interceptors.i1.preserveExisting = true
               agent2.sources.source1.interceptors.i1.useIP = true
               agent2.sources.source1.interceptors.i2.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

agent2.channels.channel1.type=memory
               agent2.channels.channel1.capacity=10000
               agent2.channels.channel1.transactionCapacity=1000
               agent2.channels.channel1.keep-alive=30

agent2.sinks.sink1.type=hdfs
               agent2.sinks.sink1.channel=channel1
               agent2.sinks.sink1.hdfs.path=hdfs://ns1/flume/events/%{host}/%Y-%m-%d           ##flume将文件写入到hdfs的路径
               agent2.sinks.sink1.hdfs.filePrefix=avroLog-                                       ##flume生成文件的前缀
               agent2.sinks.sink1.hdfs.fileSuffix=.log                                           ##flume生成文件的后缀
               agent2.sinks.sink1.hdfs.fileType=DataStream                                       ##flume生成文件的类型，DataStream或SequenceFile
               agent2.sinks.sink1.hdfs.writeFormat=Text
               agent2.sinks.sink1.hdfs.rollInterval=0
               agent2.sinks.sink1.hdfs.rollSize=10000
               agent2.sinks.sink1.hdfs.rollCount=0
               agent2.sinks.sink1.hdfs.idleTimeout=5
       2、启动agent2(每30秒检查agent1.conf文件一次，检查该文件是否有变化，有变化则马上生效)，将内容写入到hdfs的/flume/events/中
           bin/flume-ng agent --conf conf/ -Dflume.monitoring.type=http -Dflume.monitoring.port=34343 -n agent2 -f conf/agent2.conf
       3、使用java代码生产log4j日志输出到flume
           log4j.properties配置文件
               log4j.rootLogger=INFO,flume
               log4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppender
               log4j.appender.flume.Hostname = 192.168.1.33                                   ##flume启动agent所在的节点ip
               log4j.appender.flume.Port = 21111                                               ##flume启动agent监听的端口号
               log4j.appender.flume.UnsafeMode = true

           java代码
               public class FlumeProducer {
                   public static void main(String[] args) throws Exception {
                       final Logger logger = Logger.getLogger(FlumeProducer.class);
                       while (true) {
                           logger.info("logger datetime :" + System.currentTimeMillis());
                           Thread.sleep(1000);
                       }
                   }
               }
       4、验证agent2是否成功写入到hdfs的/flume/events/文件夹下
           hdfs dfs -ls -h -R /flume/events/IP/yyyy-MM-dd/                                       ##如果存在一个或多个avroLog.timestamp.log文件表示成功

　　三、使用Socket客户端写入到flume中，flume保存文件到本地

　　　　1、创建agent_tcp.conf（接收socket客户端发送的数据然后写入到Linux本地）

　　　　　　cd /usr/local/flume

　　　　　　vi conf/agent_tcp.conf

　　　　　　　　agent_tcp.sources=as1
　　　　　　　　agent_tcp.channels=c1
　　　　　　　　agent_tcp.sinks=s1

　　　　　　　　agent_tcp.sources.as1.type=syslogtcp
　　　　　　　　agent_tcp.sources.as1.bind=0.0.0.0
　　　　　　　　agent_tcp.sources.as1.port=21111
　　　　　　　　agent_tcp.sources.as1.channels=c1

　　　　　　　　agent_tcp.channels.c1.type=memory
　　　　　　　　agent_tcp.channels.c1.capacity=10000
　　　　　　　　agent_tcp.channels.c1.transactionCapacity=10000
　　　　　　　　agent_tcp.channels.c1.keep-alive=120
　　　　　　　　agent_tcp.channels.c1.byteCapacityBufferPercentage=20
　　　　　　　　agent_tcp.channels.c1.byteCapacity=800000
　　
　　　　　　　　agent_tcp.sinks.s1.type=file_roll
　　　　　　　　agent_tcp.sinks.s1.rollSize=10000
　　　　　　　　agent_tcp.sinks.s1.sink.directory =/home/lefuBigDataDev/clouds/flume/logs
　　　　　　　　agent_tcp.sinks.s1.channel=c1
　　　　2、启动flume的agent_tcp.conf

　　　　　　bin/flume-ng agent -n agent_tcp -c conf/ -f conf/agent_tcp.conf -Dflume.root.logger=DEBUG,console

　　　　3、java代码socket客户端

　　　　　　package com.left.clouds.cluster.flume.test;

　　import java.io.InputStream;
　　import java.io.OutputStream;
　　import java.net.Socket;

　　 import org.junit.Before;
　　 import org.junit.Test;

　　 public class TestFlume {

　　         private Socket client = null;
      　　         InputStream in = null;
      　　         OutputStream out = null;

      　　         @Before
      　　         public void before(){
      　　             try {
      　　                 client = new Socket("192.168.0.218", 21111);
      　　             } catch (Exception e) {
      　　                 e.printStackTrace();
      　　             }
      　　         }

      　　         @Test
      　　         public void sender() {
      　　             try {
      　　                 out = client.getOutputStream();
      　　                 int i = 0;
      　　                 while(true){
      　　                     out.write(("device-"+(i++)+("\n")).getBytes());
      　　                     Thread.sleep(4000);
      　　                     System.out.println("第："+i+"次发送...");
      　　                 }
      　　             } catch (Exception e) {
      　　                 e.printStackTrace();
      　　             }　　
      　　         }

　　 }

Flume-1.6.0中包含了kafka的source，agent配置文件实例如下
front_agent_kafka.sources=as1
front_agent_kafka.channels=c1
front_agent_kafka.sinks=s1

front_agent_kafka.sources.as1.type=org.apache.flume.source.kafka.KafkaSource
front_agent_kafka.sources.as1.zookeeperConnect=192.168.0.20:2181
front_agent_kafka.sources.as1.topic=test
front_agent_kafka.sources.as1.groupId=flume
front_agent_kafka.sources.as1.batchSize=100
front_agent_kafka.sources.as1.channels=c1

front_agent_kafka.channels.c1.type=memory
front_agent_kafka.channels.c1.capacity=10000
front_agent_kafka.channels.c1.transactionCapacity=10000
front_agent_kafka.channels.c1.keep-alive=120
front_agent_kafka.channels.c1.byteCapacityBufferPercentage=20
front_agent_kafka.channels.c1.byteCapacity=800000

front_agent_kafka.sinks.s1.type=com.lefukj.flume.sinks.JdbcSink
front_agent_kafka.sinks.s1.channel=c1

flume-agent实例的更多相关文章

Flume Source 实例
Flume Source 实例 Avro Source 监听avro端口,接收外部avro客户端数据流.跟前面的agent的Avro Sink可以组成多层拓扑结构. 1 2 3 4 5 6 7 8 9 ...
《OD大数据实战》Flume入门实例
一.netcat source + memory channel + logger sink 1. 修改配置 1)修改$FLUME_HOME/conf下的flume-env.sh文件,修改内容如下 e ...
一个flume agent异常的解决过程记录
今天在使用flume agent的时候,遇到了一个异常, 现把解决的过程记录如下: 问题的背景: 我使用flume agent 来接收从storm topology发送下来的accesslog , ...
flume agent的内部原理
flume agent 内部原理 1.Source采集数据,EventBuilder.withBody(body)将数据封装成Event对象,source.getChannelProcessor( ...
flume+sparkStreaming实例实时监控文件demo
1,flume所在的节点不和spark同一个集群 v50和 10-15节点 flume在v50里面 flume-agent.conf spark是开的work节点,就是单点计算节点,不涉及到mast ...
使用Flume消费Kafka数据到HDFS
1.概述对于数据的转发,Kafka是一个不错的选择.Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,例如HDFS.HBa ...
flume安装及入门实例
1. 如何安装? 1)将下载的flume包,解压到/home/hadoop目录中 2)修改 flume-env.sh 配置文件,主要是JAVA_HOME变量设置 root@m1:/home/hadoo ...
Flume 多个agent串联
多个agent串联采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联根据需求,首先定义以下3大要素第一台flum ...
大数据学习day35----flume01-------1 agent（关于agent的一些问题），2 event，3 有关agent和event的一些问题，4 transaction(事务控制机制)，5 flume安装 6.Flume入门案例
具体见文档,以下只是简单笔记(内容不全) 1.agent Flume中最核心的角色是agent,flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道.对于每一个Age ...
Flume官方文档翻译——Flume 1.7.0 User Guide （unreleased version）中一些知识点
Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(一) Flume官方文档翻译--Flume 1.7.0 User Guide (unr ...

随机推荐

vector容器经常用法
容器简单介绍定义及初始化末尾插入元素遍历 size 函数是能够动态添加的通过下标操作添加改变vector内容不是安全的操作仅能对已存在元素进行下标操作不存在会crash 将元素一个容器复制给 ...
Chapter 7. Dependency Management Basics 依赖管理基础
This chapter introduces some of the basics of dependency management in Gradle. 7.1. What is dependen ...
矩阵快速幂(入门) 学习笔记hdu1005, hdu1575， hdu1757
矩阵快速幂是基于普通的快速幂的一种扩展,如果不知道的快速幂的请参见http://www.cnblogs.com/Howe-Young/p/4097277.html.二进制这个东西太神奇了,好多优秀的算 ...
读书笔记--用Python写网络爬虫01--网络爬虫简介
Wiki - Web crawler 百度百科 - 网络爬虫 1.1 网络爬虫何时使用用于快速自动地获取网络信息,避免重复性的手工操作. 1.2 网络爬虫是否合法网络爬虫目前人处于早期的蛮荒阶段, ...
Java学习之路（一）了解Java
Java“白皮书”的关键术语 1)简单性相对于C++:没有头文件.指针运算.结构.联合.操作符重载.虚基类. 另一方面是小:java微型版(Java Micro Edition)用于嵌入式设备 2) ...
TFS统计编码行数语句
****** Script for SelectTopNRows command from SSMS ******/ SELECT TeamProjectProjectNodeName 项目名称 ,c ...
【转】C#注册快捷键
转自:http://blog.csdn.net/xiahn1a/article/details/42561015 这里需要引用到“user32.dll”.对于Win32的API,调用起来还是需要dll ...
windows Server 2003修改远程连接限制
调整最大远程连接数: 1.开始->控制面板->添加或删除程序->添加/删除windows组件->选择“终端服务器”进行安装. 2.开始->运行->gpedit.ms ...
Oracle数据库简介
Oracle数据库简介一.介绍 Oracle数据库系统是美国Oracle(甲骨文)公司提供的以分布式数据库为核心的一组软件产品,是目前最流行的客户/服务器(Client/Server,C/S)或浏览 ...
1.2 Coin 项目
自2009年起,Coin便是Java 7(和Java 8)中一个开源的子项目.创建Coin项目是为了反映Java语言中的微小变动: 修改Java语言,按不同的修改方式及其复杂度依次分为:类库.工具提供 ...

flume-agent实例

flume-agent实例的更多相关文章

随机推荐

热门专题