利用Flume采集IIS日志到HDFS

1.下载flume 1.7

到官网上下载 flume 1.7版本

2.配置flume配置文件

刚开始的想法是从IIS--->Flume-->Hdfs

但在采集的时候一直报错，无法直接连接到远程的hdfs

22 二月 2017 14:59:04,566 WARN  [SinkRunner-PollingRunner-DefaultSinkProcessor] (org.apache.flume.sink.hdfs.HDFSEventSink.process:443)  - HDFS IO error

java.io.IOException: Callable timed out after 10000 ms on file: hdfs://192.168.1.75:9008/iis/2017-02-22/u_ex151127.log.1487746609021.tmp

    at org.apache.flume.sink.hdfs.BucketWriter.callWithTimeout(BucketWriter.java:682)

    at org.apache.flume.sink.hdfs.BucketWriter.open(BucketWriter.java:232)

    at org.apache.flume.sink.hdfs.BucketWriter.append(BucketWriter.java:504)

    at org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:406)

    at org.apache.flume.sink.DefaultSinkProcessor.process(DefaultSinkProcessor.java:67)

    at org.apache.flume.SinkRunner$PollingRunner.run(SinkRunner.java:145)

    at java.lang.Thread.run(Thread.java:745)

Caused by: java.util.concurrent.TimeoutException

    at java.util.concurrent.FutureTask.get(FutureTask.java:205)

    at org.apache.flume.sink.hdfs.BucketWriter.callWithTimeout(BucketWriter.java:675)

    ... 6 more

所以后面有选用折中的办法，从 windows flume 采集到linux的flume，再到hdfs

IIS-->(Windows)Flume-->(Linux)Flume-->Hdfs

采集端windows flume配置文件如下：

a1.sources = r1

a1.sinks = k1

a1.channels = c1

# Describe/configure the source

a1.sources.r1.type = spooldir

a1.sources.r1.channels = c1

a1.sources.r1.spoolDir = C:\\inetpub\\logs\\LogFiles\\W3SVC4

a1.sources.r1.fileHeader = true

a1.sources.r1.basenameHeader = true

a1.sources.r1.basenameHeaderKey = fileName

a1.sources.r1.ignorePattern = ^(.)*\\.tmp$

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = timestamp

a1.sinks.k1.type = avro

a1.sinks.k1.hostname = 192.168.1.75

a1.sinks.k1.port = 44444

# Use a channel which buffers events in memory

a1.channels.c1.type=memory

a1.channels.c1.capacity=10000

a1.channels.c1.transactionCapacity=1000

a1.channels.c1.keep-alive=30  

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

其中主要就是将sinks配置到linux中的flume地址，采集目录就是IIS的某个网站日志文件地址：C:\\inetpub\\logs\\LogFiles\\W3SVC4

接收端linux flume的配置如下:

tier1.sources=source1

tier1.channels=channel1

tier1.sinks=sink1  

tier1.sources.source1.type=avro

tier1.sources.source1.bind=192.168.1.75

tier1.sources.source1.port=44444

tier1.sources.source1.channels=channel1  

tier1.channels.channel1.type=memory

tier1.channels.channel1.capacity=10000

tier1.channels.channel1.transactionCapacity=1000

tier1.channels.channel1.keep-alive=30  

tier1.sinks.sink1.channel=channel1  

tier1.sinks.sink1.type = hdfs

tier1.sinks.sink1.hdfs.path = hdfs://127.0.0.1:9008/iis

tier1.sinks.sink1.hdfs.writeFormat = Text

tier1.sinks.sink1.hdfs.fileType = DataStream

tier1.sinks.sink1.hdfs.rollInterval = 0

tier1.sinks.sink1.hdfs.rollSize = 0

tier1.sinks.sink1.hdfs.rollCount = 0

tier1.sinks.sink1.hdfs.filePrefix = localhost-%Y-%m-%d

tier1.sinks.sink1.hdfs.useLocalTimeStamp = true

tier1.sinks.sink1.hdfs.idleTimeout = 60

3.启动linux中的flume

./flume-ng agent -c ../conf -f ../conf/avro_hdfs.conf -n tier1 -Dflume.root.logger=DEBUG,console

4.启动windows中的flume

需要在flume的bin目录中启动

flume-ng.cmd agent --conf ..\conf --conf-file ..\conf\avro.conf --name a1

利用Flume采集IIS日志到HDFS的更多相关文章

Flume采集Nginx日志到HDFS
下载apache-flume-1.7.0-bin.tar.gz,用 tar -zxvf 解压,在/etc/profile文件中增加设置: export FLUME_HOME=/opt/apache-f ...
Centos7 搭建 Flume 采集 Nginx 日志
版本信息 CentOS: Linux localhost.localdomain 3.10.0-862.el7.x86_64 #1 SMP Fri Apr 20 16:44:24 UTC 2018 x ...
利用LogParser将IIS日志插入到数据库
利用LogParser将IIS日志插入到数据库上面的博文是定制一个计划任务来将log日志定时的导入数据库下面这篇博文是用cmd指令将日志导入到一张sql表中,是一次性操作 Log P ...
【Logstash系列】使用Logstash作为收集端采集IIS日志
现阶段Logstash在Windows端的日志采集一直存在若干问题,包括: 1. LS有读锁:进程开启后Input指定路径下的所有文件都会被锁死无法重命名或删除. 2. LS不识别*:如果在pat ...
Flume采集处理日志文件
Flume简介 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据 ...
利用LogParser分析IIS日志
LogParser是微软官方出品的用于读取分析IIS日志的工具,使用类SQL语句过滤文本日志内容,并可将内容导出到csv.sqlserver作进一步分析下载地址:http://www.micr ...
flume采集log4j日志到kafka
简单测试项目: 1.新建Java项目结构如下: 测试类FlumeTest代码如下: package com.demo.flume; import org.apache.log4j.Logger; pu ...
知方可补不足~利用LogParser将IIS日志插入到数据库
回到目录 LogParser是微软开发的一个日志分析工具,它是命令行格式的,我们通过这个工具,可以对日志文件进行操作,对于一个几百兆的log文件,使用记事本打开是件很残酷的事,所以,很多情况下,我们都 ...
利用Flume将MySQL表数据准实时抽取到HDFS
转自:http://blog.csdn.net/wzy0623/article/details/73650053 一.为什么要用到Flume 在以前搭建HAWQ数据仓库实验环境时,我使用Sqoop抽取 ...

随机推荐

bzoj-4318 OSU! 【数学期望】
Description osu 是一款群众喜闻乐见的休闲软件. 我们可以把osu的规则简化与改编成以下的样子: 一共有n次操作,每次操作只有成功与失败之分,成功对应1,失败对应0,n次操作对应为1 ...
64脚和小于64脚的STM32进行AD时注意，参照电源处理方法（转）
源:64脚和小于64脚的STM32进行AD时注意,参照电源处理方法请注意,ADC_IN17上没有内部基准,将其说成基准电压概念不对. 所以横线以下的理解不对,如果将其做为参考,则其电压假定按1.2V ...
Yii实现Password Repeat Validate Rule
在使用Yii时遇到这样的需求:在一个注册的页面输入两次密码,并验证两次输入是否一致.可是password的repeat的字段在数据库并不存在.问题来了,如何创建一个password_repeat的属 ...
StackExchange.Redis 官方文档(四) KeysScan
KEYS, SCAN, FLUSHDB 方法在哪? 经常有人问这些问题: 好像并没有看到 Keys(...) 或者 Scan(...)方法?那我要怎么查询数据库里面存有哪些key? 或者好像没有Fl ...
BZOJ1119[POI2009]SLO && BZOJ1697[Usaco2007 Feb]Cow Sorting牛排序
Problem J: [POI2009]SLO Time Limit: 30 Sec Memory Limit: 162 MBSubmit: 622 Solved: 302[Submit][Sta ...
聊聊Node.js 独立日漏洞
背景 Node.js 社区近期在美国独立日周末的狂欢之时爆出漏洞 https://medium.com/@iojs/important-security-upgrades-for-node-js-an ...
SpannableString富文本
忍不住想吐槽这个类,这个类是要给文本设置不同的颜色.字体样式例子:一句话中只有某几个文字想要设置成不同的颜色起初写了一个函数setColorStyle(), public SpannableStr ...
那些年我们一起改过的bug
ORA-01861: 文字与格式字符串不匹配 ORA-00936: 缺失表达式 ORA-01810 格式代码出现两次 ORA-01722: 无效数字无效的列索引
bzoj1355——2016——3——15
传送门:http://www.lydsy.com/JudgeOnline/problem.php?id=1355 题目大意: 1355: [Baltic2009]Radio Transmission ...
UVa 103 - Stacking Boxes
题目大意:矩阵嵌套,不过维数是多维的.有两个个k维的盒子A(a1, a1...ak), B(b1, b2...bk),若能找到(a1...ak)的一个排列使得ai < bi,则盒子A可嵌套在盒子 ...