使用Flume-Taildir和rocketmq-flume与RocketMQ的结合

一、Fume-Taidir

Flume1.7.0加入了taildirSource作为agent的source。可以说是 Spooling Directory Source + Exec Source 的结合体。可以监控多个目录，并且使用正则表达式匹配该目录中的文件名进行实时收集，并记录每个文件最新消费位置，Agent进程重启后不会有重复消费的问题。

官方文档：https://flume.apache.org/FlumeUserGuide.html#taildir-source

Exec source：适用于监控一个实时追加的文件，但不能保证数据不丢失

Spooldir Source：能够保证数据不丢失，且能够实现断点续传，但延迟较高，不能实时监控

Taildir Source：既能够实现断点续传，又可以保证数据不丢失，还能够进行实时监控

Taildir Source 维护了一个 Json 格式的 positionFile，其会定期的往 positionFile 中更新每个文件读取到的最新的位置，因此能够实现断点续传。

[

  {"inode":,"pos":,"file":"/tmp/upload/456.txt"},

  {"inode":,"pos":,"file":"/tmp/upload/789.txt"},

  {"inode":,"pos":,"file":"/tmp/upload/123.txt"}

]

配置文件示例：

agent1.sources = source1

agent1.channels = channel1

agent1.sinks = avroSink  

# describe/configure source1

agent1.sources.source1.type = TAILDIR

agent1.sources.source1.channels = channel1

agent1.sources.source1.channels.skipToEnd = True

# throught JSON format to record the inode, the absolute path and the last position of each tailing file.For to continual work

agent1.sources.source1.positionFile = ./taildir_position.json

# throught Space-separated list file dir which will been tail

agent1.sources.source1.filegroups = f1 f2

# define f1 info.

agent1.sources.source1.filegroups.f1 = /usr/local/tomcat/logs/ac/ac.log.*

agent1.sources.source1.headers.f1.headerKey1 = value1

agent1.sources.source1.filegroups.f2 = /usr/local/tomcat/logs/gi/gi.log.*

agent1.sources.source1.headers.f2.headerKey1 = value2

agent1.sources.source1.headers.f2.headerKey2 = value2-

agent1.sources.source1.fileHeader = true

# use a channel which buffers events in memory

# type:memory or file is to temporary to save buffer data which is sink using

agent1.channels.channel1.type=memory

agent1.channels.channel1.capacity =

agent1.channels.channel1.transactionCapacity = 

agent1.sinks.avroSink.type = avro

agent1.sinks.avroSink.channel = channel1

agent1.sinks.avroSink.hostname = 192.168.216.201

agent1.sinks.avroSink.port =

agent1.sinks.avroSink.batch-size =

二、 Flume-ng与RocketMQ之间的消息接收和投递

Rocket-Flume：https://github.com/apache/rocketmq-externals/tree/master/rocketmq-flume

agent1.sources = source1

agent1.channels = channel1

agent1.sinks = sink1

agent1.sources.source1.type = TAILDIR

agent1.sources.source1.positionFile = /usr/local/apache-flume-1.9.-bin/db/taildir_position.json

agent1.sources.source1.filegroups = seqGenSrc

agent1.sources.source1.filegroups.seqGenSrc = /tmp/oss-yiruike-logs/raw/chaopai_push/.*txt

agent1.sources.source1.fileHeader = false

agent1.sources.source1.batchSize = 

agent1.channels.channel1.type = memory

agent1.channels.channel1.capacity =

agent1.channels.channel1.transactionCapacity =

agent1.channels.channel1.keep-alive = 

agent1.sinks.sink1.type = org.apache.rocketmq.flume.ng.sink.RocketMQSink

agent1.sinks.sink1.nameserver = 172.17.213.74:9876;172.17.213.75:9876;172.17.213.75:9876

agent1.sinks.sink1.producerGroup = MyProducerGroup_1

agent1.sinks.sink1.topic = ts-push-delineation

agent1.sources.source1.channels = channel1

agent1.sinks.sink1.channel = channel1

启动Flume

# cd /usr/local/apache-flume-1.9.-bin ; nohup bin/flume-ng agent -c conf -f conf/flume.conf -n agent1 >/dev/null >& &

使用Flume-Taildir和rocketmq-flume与RocketMQ的结合的更多相关文章

Flume（一）Flume原理解析
前言最近有一点浮躁,遇到了很多不该发生在我身上的事情.没有,忘掉这些.好好的学习,才是正道! 一.Flume简介 flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应 ...
分布式实时日志系统（二）环境搭建之 flume 集群搭建/flume ng资料
最近公司业务数据量越来越大,以前的基于消息队列的日志系统越来越难以满足目前的业务量,表现为消息积压,日志延迟,日志存储日期过短,所以,我们开始着手要重新设计这块,业界已经有了比较成熟的流程,即基于流式 ...
大数据技术之_09_Flume学习_Flume概述+Flume快速入门+Flume企业开发案例+Flume监控之Ganglia+Flume高级之自定义MySQLSource+Flume企业真实面试题（重点）
第1章 Flume概述1.1 Flume定义1.2 Flume组成架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3 Flum ...
Flume（一）Flume的基础介绍与安装
一.背景 Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步. 许多公司的平台每天会产生大量的日志 ...
flume jetty 进程关系 flume jetty 跨域问题 jetty 源码分析
flume jetty 跨域问题 13481 httpSource的端口进程号 = flume 启动后的进程号 [root@c log]# netstat -atp Active Internet ...
Flume 学习笔记之 Flume NG概述及单节点安装
Flume NG概述: Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均 ...
【Flume学习之一】Flume简介
环境 apache-flume-1.6.0 Flume是分布式日志收集系统.可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase:同类工具:Facebook Scribe,Apache ...
RocketMQ之一：RocketMQ整体介绍
常用MQ介绍及对比--<MQ详解及四大MQ比较> RocketMQ环境搭建--<RocketMQ之三:RocketMQ集群环境搭建> RocketMQ物理部署结构 Rocket ...
Flume1 初识Flume和虚拟机搭建Flume环境
前言: 工作中需要同步日志到hdfs,以前是找运维用rsync做同步,现在一般是用flume同步数据到hdfs.以前为了工作简单看个flume的一些东西,今天下午有时间自己利用虚拟机搭建了 ...
flume ng系列之——flume安装
flume版本:1.5.0 1.下载安装包: http://www.apache.org/dyn/closer.cgi/flume/1.5.0/apache-flume-1.5.0-bin.tar.g ...

随机推荐

jmter脚本运行结果实时监控
一.背景我们很多时候在使用JMeter做性能测试,我们很难及时察看压测过程中应用的性能状况,总是需要等到测试完成后去看Report 二.解决方案 JMeter引入Backend Listener,用 ...
mysql免安装版配置和一些常见问题
博客原文点我今天在Windows Server 2003下安装mysql,遇到不少问题.之前在另外两台服务器安装的时候也遇到了几个问题,最后找到不少文章解决了,记录一下. 所有版本都是免安装的32和 ...
NumPy基本操作快速熟悉
NumPy 是 Python 数值计算非常重要的一个包.很多科学计算包都是以 NumPy 的数组对象为基础开发的. 本文用代码快速过了一遍 NumPy 的基本操作,对 NumPy 整体有一个把握.希望 ...
discuz x3.3排行首页图片显示更多的图片
找到\source\include\misc\misc_ranklist_index.php文件,修改41行 $ranklist = getranklist_pictures_index(9); 为 ...
Spring Cloud Task 知识点
Spring Cloud Task的目标是为Spring Boot应用程序提供创建短期运行微服务的功能. 出处:https://blog.csdn.net/peterwanghao/article/d ...
牛客NOIP暑期七天营-提高组6C：分班问题（组合数）
题意:A班有N个人,B班有M个人,现在要组成一个新的班级C班,为了公平,从AB班各抽相同人数的人. 现在求所有方案中,人数之和是多少. 思路:即求Σ k*C(N,k)*C(M,k); 先忽略这个 ...
MySQL 快速删除大量数据
千万级数据量方案1. 直接使用delete 因delete执行速度与索引量成正比,若表中索引量较多,使用delete会耗费数小时甚至数天的时间方案2. (1)创建临时表,表结构与原表结构相同 ...
27、shutil文件操作、xml、subprocess运行子程序模块(了解)
一.shutil模块(了解):高级的文件.文件夹.压缩包处理模块. import shutil # shutil.copyfileobj(fsrc, fdst[, length]),将文件内容拷贝到另 ...
数据库join解释与视图
数据库的视图是表运算的结果. 数据库的表是数据单元: join是运算符: 视图是运算结果. 数据库join解释 1.join:将两个表结构连接成一个视图 2.left.right.inner: 从基准 ...
scala 学习笔记--集合
1.scala集合的null 是nil 而不是null 2.set的三个方法union,intersect,diff union--合并去重 intersect--交集 diff--a减去(a和b交集 ...

使用Flume-Taildir和rocketmq-flume与RocketMQ的结合

一、Fume-Taidir

二、 Flume-ng与RocketMQ之间的消息接收和投递

使用Flume-Taildir和rocketmq-flume与RocketMQ的结合的更多相关文章

随机推荐

热门专题