Flume Spooldir 源的一些问题

来自：http://blog.xlvector.net/2014-01/flume-spooldir-source-problem/

（

自己写的插件，数据序列化，格式化抛出的异常都会导致flume停止，不能继续取数据，异常可以自己处理

）

最近在用Flume做数据的收集。用到了里面的Spooldir的源在使用中有如下的问题：

如果文件的某一行有乱码，不符合指定的编码规范，那么flume会抛出一个exception，然后就停在那儿了。
spooldir指定的文件夹中的文件一旦被修改，flume就会抛出一个exception，然后停在那儿了。

其实，flume的最大问题就是不够鲁棒。一旦出现问题，不能跳过，只能死在那儿。不知道flume为什么要这么设计。理论上，它应该允许我们在配置文件中指定在遇到错误的行时，是停止还是跳过，不过它目前并不支持这个。所以，我们只能写一个自己的flume的插件了。

https://github.com/xlvector/flume

https://github.com/ponyma/flume

这个插件主要修复了前面提到的两个问题：

如果某一行有乱码，flume会忽略这一行
flume只会check最近N分钟没有修改过的文件

具体修改方法如下。首先，我们继承了SpoolDirectorySource，实现了一个叫做RobustSpoolDirectorySource的类。这个类的代码基本是拷贝了SpoolDirectorySource的代码。但做了如下的修改。

在getNextFile()的函数中，我们发现了一个filter，做了如下的修改

FileFilter filter = new FileFilter() {

    public boolean accept(File candidate) {

        String fileName = candidate.getName();

        if ((candidate.isDirectory()) ||

            (fileName.endsWith(completedSuffix)) ||

            (fileName.startsWith(".")) ||

            ignorePattern.matcher(fileName).matches() ||

            (System.currentTimeMillis() - candidate.lastModified() < 600000)) {

            return false;

        }

        return true;

    }

};

这里，我们加入了一个条件

(System.currentTimeMillis() - candidate.lastModified() < 600000)

也就是说10分钟之内修改过的文件我们不会处理。

第二个修改是关于编码的，你可以在ReliableSpoolingFileEventReader.java的代码中找到如下的代码：

ResettableInputStream in =

    new ResettableFileInputStream(nextFile, tracker,

        ResettableFileInputStream.DEFAULT_BUF_SIZE, inputCharset,

        DecodeErrorPolicy.FAIL);

这里，我们只需要将DecodeErrorPolicy 改成 DecodeErrorPolicy.IGNORE 即可。

Flume Spooldir 源的一些问题的更多相关文章

flume【源码分析】分析Flume的启动过程
h2 { color: #fff; background-color: #7CCD7C; padding: 3px; margin: 10px 0px } h3 { color: #fff; back ...
flume【源码分析】分析Flume的拦截器
h2 { color: #fff; background-color: #7CCD7C; padding: 3px; margin: 10px 0px } h3 { color: #fff; back ...
flume spooldir bug修复
BUG:在往目录中copy大文件时,没有复制完,flume就开始读-->导致报错在代码中体现为:org.apache.flume.client.avro.ReliableSpoolingFil ...
[ETL] Flume 理论与demo（Taildir Source & Hdfs Sink）
一.Flume简介 1. Flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据: ...
[从源码学设计] Flume 之 memory channel
[从源码学设计] Flume 之 memory channel 目录 [从源码学设计] Flume 之 memory channel 0x00 摘要 0x01 业务范畴 1.1 用途和特点 1.2 C ...
一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F ...
flume的配置详解
Flume:===================== Flume是一种分布式的.可靠的.可用的服务,可以有效地收集.聚合和移动大量的日志数据. 它有一个基于流数据的简单而灵活的体系结构. 它具有健壮 ...
关于flume配置加载（二）
为什么翻flume的代码,一方面是确实遇到了问题,另一方面是想翻一下flume的源码,看看有什么收获,现在收获还谈不上,因为要继续总结.不够已经够解决问题了,而且确实有好的代码,后续会继续慢慢分享,这 ...
Flume的安装与配置
Flume的安装与配置一. 资源下载资源地址:http://flume.apache.org/download.html 程序地址:http://apache.fayea.com/fl ...

随机推荐

Firefox 设置技巧
在Firefox地址栏中输入“about:cache”并键入回车,接着将显示Firefox的内存缓冲设置与磁盘高速缓存设置.如果在页面上单击“List Cache Entries”链接,我们还可以查看 ...
【OpenGL】glFinish()和glFlush()函数详解-[转]
通常情况下,OpenGL指令不是立即执行的.它们首先被送到指令缓冲区,然后才被送到硬件执行.glFinish和glFlush都是强制将命令缓冲区的内容提交给硬件执行. 一.glFinish()函数 ...
STL中vector容器实现反转（reverse）
vector容器中实现可以通过以下两种方式实现: #include "stdafx.h" #include <vector> #include <iostream ...
Find n‘th number in a number system with only 3 and 4
这是在看geeksforgeeks时看到的一道题,挺不错的,题目是 Given a number system with only 3 and 4. Find the nth number in th ...
UDT: Breaking the Data Transfer Bottleneck
http://udt.sourceforge.net/ DT is a reliable UDP based application level data transport protocol for ...
Binary Search
Binary Search [原文见:http://www.topcoder.com/tc?module=Static&d1=tuto ...
thinkphp 模板显示display和assign的用法
this->assign('name',$value); //在 Action 类里面使用 assign 方法对模板变量赋值,无论何种变量类型都统一使用 assign 赋值 $this-> ...
Myeclipse如何整合tomcat
.在本机上安装MyEclipse和Tomcat 5软件程序 2.运行MyEclipse,设置与Tomcat 5服务器的连接,如下图所示: 选择Window--->Preferences,点击进入 ...
PCA和白化练习之处理图像
第一步:下载pca_exercise.zip,里面包含有图像数据144*10000,每一列代表一幅12*12的图像块,首先随见展示200幅: 第二步:0均值处理,确保数据均值为0或者接近0 第三步:执 ...
IOS 7 Study - Manipulating a Navigation Controller’s Array of View
ProblemYou would like to directly manipulate the array of view controllers associated with aspecific ...

Flume Spooldir 源的一些问题

Flume Spooldir 源的一些问题

Flume Spooldir 源的一些问题的更多相关文章

随机推荐

热门专题