Flume Spooldir 源的一些问题

来自：http://blog.xlvector.net/2014-01/flume-spooldir-source-problem/

（

自己写的插件，数据序列化，格式化抛出的异常都会导致flume停止，不能继续取数据，异常可以自己处理

）

最近在用Flume做数据的收集。用到了里面的Spooldir的源在使用中有如下的问题：

如果文件的某一行有乱码，不符合指定的编码规范，那么flume会抛出一个exception，然后就停在那儿了。
spooldir指定的文件夹中的文件一旦被修改，flume就会抛出一个exception，然后停在那儿了。

其实，flume的最大问题就是不够鲁棒。一旦出现问题，不能跳过，只能死在那儿。不知道flume为什么要这么设计。理论上，它应该允许我们在配置文件中指定在遇到错误的行时，是停止还是跳过，不过它目前并不支持这个。所以，我们只能写一个自己的flume的插件了。

https://github.com/xlvector/flume

https://github.com/ponyma/flume

这个插件主要修复了前面提到的两个问题：

如果某一行有乱码，flume会忽略这一行
flume只会check最近N分钟没有修改过的文件

具体修改方法如下。首先，我们继承了SpoolDirectorySource，实现了一个叫做RobustSpoolDirectorySource的类。这个类的代码基本是拷贝了SpoolDirectorySource的代码。但做了如下的修改。

在getNextFile()的函数中，我们发现了一个filter，做了如下的修改

FileFilter filter = new FileFilter() {

    public boolean accept(File candidate) {

        String fileName = candidate.getName();

        if ((candidate.isDirectory()) ||

            (fileName.endsWith(completedSuffix)) ||

            (fileName.startsWith(".")) ||

            ignorePattern.matcher(fileName).matches() ||

            (System.currentTimeMillis() - candidate.lastModified() < 600000)) {

            return false;

        }

        return true;

    }

};

这里，我们加入了一个条件

(System.currentTimeMillis() - candidate.lastModified() < 600000)

也就是说10分钟之内修改过的文件我们不会处理。

第二个修改是关于编码的，你可以在ReliableSpoolingFileEventReader.java的代码中找到如下的代码：

ResettableInputStream in =

    new ResettableFileInputStream(nextFile, tracker,

        ResettableFileInputStream.DEFAULT_BUF_SIZE, inputCharset,

        DecodeErrorPolicy.FAIL);

这里，我们只需要将DecodeErrorPolicy 改成 DecodeErrorPolicy.IGNORE 即可。

Flume Spooldir 源的一些问题的更多相关文章

flume【源码分析】分析Flume的启动过程
h2 { color: #fff; background-color: #7CCD7C; padding: 3px; margin: 10px 0px } h3 { color: #fff; back ...
flume【源码分析】分析Flume的拦截器
h2 { color: #fff; background-color: #7CCD7C; padding: 3px; margin: 10px 0px } h3 { color: #fff; back ...
flume spooldir bug修复
BUG:在往目录中copy大文件时,没有复制完,flume就开始读-->导致报错在代码中体现为:org.apache.flume.client.avro.ReliableSpoolingFil ...
[ETL] Flume 理论与demo（Taildir Source & Hdfs Sink）
一.Flume简介 1. Flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据: ...
[从源码学设计] Flume 之 memory channel
[从源码学设计] Flume 之 memory channel 目录 [从源码学设计] Flume 之 memory channel 0x00 摘要 0x01 业务范畴 1.1 用途和特点 1.2 C ...
一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F ...
flume的配置详解
Flume:===================== Flume是一种分布式的.可靠的.可用的服务,可以有效地收集.聚合和移动大量的日志数据. 它有一个基于流数据的简单而灵活的体系结构. 它具有健壮 ...
关于flume配置加载（二）
为什么翻flume的代码,一方面是确实遇到了问题,另一方面是想翻一下flume的源码,看看有什么收获,现在收获还谈不上,因为要继续总结.不够已经够解决问题了,而且确实有好的代码,后续会继续慢慢分享,这 ...
Flume的安装与配置
Flume的安装与配置一. 资源下载资源地址:http://flume.apache.org/download.html 程序地址:http://apache.fayea.com/fl ...

随机推荐

HDU 2437 Jerboas （剪枝搜索）
题意:给定一幅图,图上有两种点T,P.......一只跳鼠在一个T点作为起始点,它想通过图上的路到达某个P点,P点满足如下要求: (1).到达P点的途中路径权值为k的倍数 (2).尽量让路径权值取最小 ...
iOS国际化多语言设置
一.创建工程.添加语言
C：常量、变量、表达式、运算符、枚举
常量变量表达式运算符枚举 1.布尔类型只有真和假 2运算符 >,<,<=,>=,==,!=.判断两个数是否相等要使用双等号‘==’.逻辑运算符的表达式结果非真即假,&a ...
扩展User增加部门字段
通过继承User<TEntity>类增加一个字段 /// <summary>用户信息</summary> [Serializable] [ModelCheckMod ...
Codeforces Gym 100231G Voracious Steve 记忆化搜索
Voracious Steve 题目连接: http://codeforces.com/gym/100231/attachments Description 有两个人在玩一个游戏有一个盆子里面有n个 ...
VK Cup 2015 - Round 2 (unofficial online mirror, Div. 1 only) E. Correcting Mistakes 水题
E. Correcting Mistakes Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://codeforces.com/problemset ...
hihocoder #1177 : 顺子模拟
#1177 : 顺子 Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://hihocoder.com/problemset/problem/1177 ...
android定位和地图开发实例
在android开发中地图和定位是很多软件不可或缺的内容,这些特色功能也给人们带来了很多方便. 首先介绍一下地图包中的主要类: MapController : 主要控制地图移动,伸缩,以某个GPS坐标 ...
APP快速通过苹果AppStore审核九大诀窍
[IT168技术]对于移动应用开发者来说, 最令人沮丧的可能莫过于辛辛苦苦开发的应用, 没能通过苹果AppStore的审核,或者在应用更新时遭遇下架.苹果的AppStore的审核流程和标准, 一向不透 ...
QT核心编程之调试技术（g）
Qt应用程序的调试可以通过DDD进行跟踪调试和打印各种调试或警告信息.DDD(Data Display Debugger)是使用gdb调试工具的图形工具,它安装在Linux操作系统中,使用方法可参考D ...

Flume Spooldir 源的一些问题

Flume Spooldir 源的一些问题

Flume Spooldir 源的一些问题的更多相关文章

随机推荐

热门专题