Flume 远程写HDFS

现在的需求是在一台Flume采集机器上，往Hadoop集群上写HDFS，该机器没有安装Hadoop。

这里的Flume版本是1.6.0，Hadoop版本是2.7.1.

把Hadoop集群的hdfs-site.xml、core-site.xml两个配置文件复制到 flume安装目录的conf目录去，把hadoop-hdfs-2.7.1.jar复制到 Flume lib目录。

一、Flume配置文件：

a1.sources = r1

a1.channels = c1

a1.sinks = k1

a1.sources.r1.type = syslogtcp

a1.sources.r1.bind = 192.168.110.160 # 本机ip

a1.sources.r1.port = 23003

a1.sources.r1.workerThreads  = 10

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000000

a1.channels.c1.transactionCapacity = 100000

a1.channels.c1.keep-alive = 6

a1.channels.c1.byteCapacityBufferPercentage = 20

a1.sinks.k1.type = hdfs

a1.sinks.k1.hdfs.path = hdfs://clusterpc/test/flume/%y-%m-%d

a1.sinks.k1.hdfs.filePrefix = events-

a1.sinks.k1.hdfs.round = true

a1.sinks.k1.hdfs.roundValue = 10

a1.sinks.k1.hdfs.roundUnit = minute

a1.sinks.k1.hdfs.useLocalTimeStamp=true

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

　　启动： bin/flume-ng agent --conf conf --conf-file conf/flume-tcp-memory-hdfs.conf --name a1 -Dflume.root.logger=info,console

二、错误集：

1、找不到主机名

2016-09-19 16:15:48,518 (SinkRunner-PollingRunner-DefaultSinkProcessor) [ERROR - org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)] process failed

java.lang.IllegalArgumentException: java.net.UnknownHostException: cluster

        at org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:378)

        at org.apache.hadoop.hdfs.NameNodeProxies.createNonHAProxy(NameNodeProxies.java:310)

        at org.apache.hadoop.hdfs.NameNodeProxies.createProxy(NameNodeProxies.java:176)

        at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:678)

        at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:619)

        at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:149)

        at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2653)

        at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:92)

        at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2687)

        at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2669)

        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:371)

        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:170)

        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:355)

        at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)

        at org.apache.flume.sink.hdfs.BucketWriter$1.call(BucketWriter.java:243)

        at org.apache.flume.sink.hdfs.BucketWriter$1.call(BucketWriter.java:235)

        at org.apache.flume.sink.hdfs.BucketWriter$9$1.run(BucketWriter.java:679)

        at org.apache.flume.auth.SimpleAuthenticator.execute(SimpleAuthenticator.java:50)

        at org.apache.flume.sink.hdfs.BucketWriter$9.call(BucketWriter.java:676)

        at java.util.concurrent.FutureTask.run(FutureTask.java:262)

        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)

        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)

        at java.lang.Thread.run(Thread.java:744)

Caused by: java.net.UnknownHostException: cluster

　　cluster是公司Hadoop集群NameService的名字，这个错误是由于找不到Hadoop集群NameService造成的，所以需要把hdfs-site.xml复制到flume/conf目录。

2、

java.io.IOException: Mkdirs failed to create /test/flume/16-09-19 (exists=false, cwd=file:/data/apache-flume-1.6.0-bin)

        at org.apache.hadoop.fs.ChecksumFileSystem.create(ChecksumFileSystem.java:450)

        at org.apache.hadoop.fs.ChecksumFileSystem.create(ChecksumFileSystem.java:435)

        at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:909)

        at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:890)

        at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:787)

        at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:776)

        at org.apache.flume.sink.hdfs.HDFSSequenceFile.open(HDFSSequenceFile.java:96)

        at org.apache.flume.sink.hdfs.HDFSSequenceFile.open(HDFSSequenceFile.java:78)

        at org.apache.flume.sink.hdfs.HDFSSequenceFile.open(HDFSSequenceFile.java:69)

        at org.apache.flume.sink.hdfs.BucketWriter$1.call(BucketWriter.java:246)

        at org.apache.flume.sink.hdfs.BucketWriter$1.call(BucketWriter.java:235)

        at org.apache.flume.sink.hdfs.BucketWriter$9$1.run(BucketWriter.java:679)

        at org.apache.flume.auth.SimpleAuthenticator.execute(SimpleAuthenticator.java:50)

        at org.apache.flume.sink.hdfs.BucketWriter$9.call(BucketWriter.java:676)

        at java.util.concurrent.FutureTask.run(FutureTask.java:262)

        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)

        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)

        at java.lang.Thread.run(Thread.java:744)

　　把 core-site.xml复制到flume/conf目录

3、

java.io.IOException: No FileSystem for scheme: hdfs

        at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2644)

        at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2651)

        at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:92)

        at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2687)

        at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2669)

        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:371)

        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:170)

        at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:355)

        at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)

        at org.apache.flume.sink.hdfs.BucketWriter$1.call(BucketWriter.java:243)

        at org.apache.flume.sink.hdfs.BucketWriter$1.call(BucketWriter.java:235)

        at org.apache.flume.sink.hdfs.BucketWriter$9$1.run(BucketWriter.java:679)

        at org.apache.flume.auth.SimpleAuthenticator.execute(SimpleAuthenticator.java:50)

        at org.apache.flume.sink.hdfs.BucketWriter$9.call(BucketWriter.java:676)

        at java.util.concurrent.FutureTask.run(FutureTask.java:262)

        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)

        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)

        at java.lang.Thread.run(Thread.java:744)

　　把hadoop-hdfs-2.7.1.jar复制到flume/lib目录下

4、HDFS权限不足，这里往HDFS写文件的用户是登录Flume采集机器的用户。

org.apache.hadoop.security.AccessControlException: Permission denied: user=kafka, access=WRITE, inode="/test/flume/16-09-19/events-.1474268726127.tmp":hadoop:supergroup:drwxr-xr-x

        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:319)

        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:292)

        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:213)

        at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:190)

        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1698)

        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1682)

        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkAncestorAccess(FSDirectory.java:1665)

        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:2517)

        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInt(FSNamesystem.java:2452)

        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:2335)

        at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.create(NameNodeRpcServer.java:623)

        at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.create(ClientNamenodeProtocolServerSideTranslatorPB.java:397)

        at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)

        at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)

        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:969)

        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2049)

        at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2045)

        at java.security.AccessController.doPrivileged(Native Method)

        at javax.security.auth.Subject.doAs(Subject.java:415)

        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657)

        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2043)

　　HDFS 权限不足，要授权。hadoop fs -chmod -R 777 /test/

5、时间戳

java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null

        at com.google.common.base.Preconditions.checkNotNull(Preconditions.java:204)

        at org.apache.flume.formatter.output.BucketPath.replaceShorthand(BucketPath.java:228)

        at org.apache.flume.formatter.output.BucketPath.escapeString(BucketPath.java:432)

        at org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:380)

        at org.apache.flume.sink.DefaultSinkProcessor.process(DefaultSinkProcessor.java:68)

        at org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.java:147)

        at java.lang.Thread.run(Thread.java:744)

　　原因是Event对象headers没有设置timestamp造成的，解决办法：设置a1.sinks.k1.hdfs.useLocalTimeStamp=true，使用本地时间戳。

Flume 远程写HDFS的更多相关文章

Flume中的HDFS Sink配置参数说明【转】
转:http://lxw1234.com/archives/2015/10/527.htm 关键字:flume.hdfs.sink.配置参数 Flume中的HDFS Sink应该是非常常用的,其中的配 ...
shell脚本监控Flume输出到HDFS上文件合法性
在使用flume中发现由于网络.HDFS等其它原因,使得经过Flume收集到HDFS上得日志有一些异常,表现为: 1.有未关闭的文件:以tmp(默认)结尾的文件.加入存到HDFS上得文件应该是gz压缩 ...
客户端用java api 远程操作HDFS以及远程提交MR任务(源码和异常处理)
两个类,一个HDFS文件操作类,一个是wordcount 词数统计类,都是从网上看来的.上代码: package mapreduce; import java.io.IOException; impo ...
prometheus远程写参数优化
一.概述 prometheus可以通过远程存储来解决自身存储的瓶颈,所以其提供了远程存储接口,并可以通过过配置文件进行配置(prometheus.yml).一般情况下我们使用其默认的配置参数,但是为了 ...
flume远程调试
项目开发的时候,出现问题的时候,通常在IDE里面直接进行调试,但有时候我们可能用的是另外的一些开源框架,甚至运行程序里面没有一行代码是我们自己写的,如果出现一些较复杂的问题,那么我们可能就会用到远程调 ...
webhdfs追加写HDFS异常
问题 {:timestamp=>"2015-03-04T00:02:47.224000+0800", :message=>"Retrying webhdfs ...
flume data to hdfs
flume 开发梳理 flume 数据到hadoop conf/hdfsAgent.conf #配置sources.channels.sinks a1.sources=r1 a1.channels=c ...
flume 中的 hdfs sink round 和roll
http://blog.csdn.net/kntao/article/details/49278239 http://flume.apache.org/FlumeUserGuide.html#exec ...
Nginx日志通过Flume导入到HDFS中
关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) flume上传到hdfs: 当我们的数据量比较大时,比如每天的日志文件达到5G以上使用ha ...

随机推荐

UVA 12661（动态权值+最短路，dij）
题意:赛车背景,给你n个节点,m条边的图以及起点和终点:其中每条边的信息包括u(起点),v(终点),a(开启的时间),b(关闭的时间),d(通过这条道路的时间):求最短通过的时间,其中车在进的时候,保 ...
Linux线程-终止
在前文讨论了线程创建的一些基本东西,这里讨论有哪些方法可以使线程终止,线程终止又是如何与创建所需的参数进行关联的. 一,正常终止线程在执行完成之后,正常终止. 二,线程取消 2.1 线程取消的定义 ...
Scalding初探之三：Hadoop实战
Java版本如果在Scala工程中混入Java类导致java版本不match,可能会抛错 java.lang.UnsupportedClassVersionError: XXX Unsupporte ...
Erlang 104 OTP
笔记系列 Erlang环境和顺序编程Erlang并发编程Erlang分布式编程YawsErlang/OTP 日期变更说明 2014-12-21 A Outline, 1 A ...
UE4 VR 模式下全屏解决办法
方法步骤: 1.打开关卡蓝图添加如下代码: 2.设置配置文件在工程目录里面找到 Config 文件夹在里面添加一个配置文件并命名为 DefaultGameUserSettings.ini 把如下内容贴 ...
Android studio 常用插件
常用插件 GsonFormat 该插件的功能是根据JSON数据生成相应的实体类,插件装好后按Alt+S快捷键呼不出GsonFormat的界面,如果你也遇到类似的问题,就去改一下快捷键吧!我将快捷键改成 ...
jquery插件文件上传
文件上传有很多jQuery插件,一般我最为常用的就是uploadify.js和ajaxfileupload.js,二者都是以file标签为依托,前者需要在页面初始化时就渲染插件,比较适合单纯的文件上传 ...
java 生成8位数字作为UID
java 生成8位数字作为UUID: /*** * 生成uid 8位数字 */public static String generateUID(){ Random random = new Rando ...
ES pom配置
https://github.com/elastic/elasticsearch/issues/19415 <dependency> <groupId>org.elastics ...
tomcat内存溢出 PermGen space
1. java.lang.OutOfMemoryError: PermGen space ---- PermGen space溢出. PermGen space的全称是Permanent Gene ...

Flume 远程写HDFS

Flume 远程写HDFS的更多相关文章

随机推荐

热门专题