简单的Flume和hive的结合

1. 日志格式　

#Software: Microsoft Internet Information Services 6.0

#Version: 1.0

#Date: -- ::

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status

-- :: W3SVC1 :da8:::: GET /skin6/film_sort.asp id=  - :da8::f07:ac50:d2b:f22d:5dec Mozilla/5.0+(Windows+NT+6.1;+Trident/7.0;+rv:11.0)+like+Gecko

-- :: W3SVC1 :da8:::: GET /news.asp -  - :da8::f07:ac50:d2b:f22d:5dec Mozilla/5.0+(Windows+NT+6.1;+Trident/7.0;+rv:11.0)+like+Gecko

-- :: W3SVC1 :da8:::: GET /UploadFile/.jpg -  - :da8::f07:ac50:d2b:f22d:5dec Mozilla/5.0+(Windows+NT+6.1;+Trident/7.0;+rv:11.0)+like+Gecko

2. 建立的对应的hive表：

CREATE EXTERNAL  TABLE IF NOT EXISTS exmovielog

(

    log_date            TIMESTAMP,

    s_sitename            STRING,

    s_ip                STRING,

    cs_method            STRING,

    cs_uri_stem            STRING,

    cs_uri_query            STRING,

    s_port                INT,

    cs_username            STRING,

    c_ip                STRING,

    user_agen            STRING,

    sc_status            INT,

    sc_substatus            INT,

    sc_win32_status            INT

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '`'

LOCATION '/movielog';

3. flume配置文件

agent1.sources = source1

agent1.channels = channel1

agent1.sinks = sink1

# Each channel's type is defined.

agent1.channels.channel1.type = file

agent1.channels.channel1.checkpointDir = /home/hadoop_admin/flumeTemp/fchannel/spool/checkpoint

agent1.channels.channel1.dataDirs = /home/hadoop_admin/flumeTemp/fchannel/spool/data

agent1.channels.channel1.capacity = 

# For each one of the sources, the type is defined

agent1.sources.source1.type = spooldir

agent1.sources.source1.inputCharset = GBK

agent1.sources.source1.spoolDir =/home/hadoop_admin/movielog

agent1.sources.source1.fileHeader = true

agent1.sources.source1.deletePolicy = immediate

agent1.sources.source1.batchSize =

agent1.sources.source1.channels = channel1

# remove the line that starts with '#'

agent1.sources.source1.interceptors = i1  search-replace1 search-replace2 search-replace3

agent1.sources.source1.interceptors.i1.type = regex_filter

agent1.sources.source1.interceptors.i1.regex = ^[^#].*$

# the default value of this configuration is flase

# agent1.sources.source1.interceptors.i1.excludeEvents = true

# agent1.sources.source1.interceptors.i1.regex = ^#

# connect the date and time to be a timestamp

agent1.sources.source1.interceptors.search-replace1.type = search_replace

agent1.sources.source1.interceptors.search-replace1.searchPattern = (\\d\\d\\d\\d-\\d\\d-\\d\\d)\\s(\\d\\d:\\d\\d:\\d\\d)

agent1.sources.source1.interceptors.search-replace1.replaceString = $1T$

# change the split char

agent1.sources.source1.interceptors.search-replace2.type = search_replace

agent1.sources.source1.interceptors.search-replace2.searchPattern = \\s

agent1.sources.source1.interceptors.search-replace2.replaceString = `

agent1.sources.source1.interceptors.search-replace3.type = search_replace

agent1.sources.source1.interceptors.search-replace3.searchPattern = (\\d\\d\\d\\d-\\d\\d-\\d\\d)T(\\d\\d:\\d\\d:\\d\\d)

agent1.sources.source1.interceptors.search-replace3.replaceString = $ $

# Each sink's type must be defined

agent1.sinks.sink1.type = hdfs

agent1.sinks.sink1.channel = channel1

agent1.sinks.sink1.hdfs.path = hdfs://master:9000/movielog

agent1.sinks.sink1.hdfs.writeFormat = Text

agent1.sinks.sink1.hdfs.fileType = DataStream

agent1.sinks.sink1.hdfs.rollInterval =

agent1.sinks.sink1.hdfs.idleTimeout =

agent1.sinks.sink1.hdfs.rollCount =

agent1.sinks.sink1.hdfs.rollSize =

agent1.sinks.sink1.hdfs.batchSize =

agent1.sinks.sink1.hdfs.callTimeout =

简单的Flume和hive的结合的更多相关文章

Flume + HDFS + Hive日志收集系统
最近一段时间,负责公司的产品日志埋点与收集工作,搭建了基于Flume+HDFS+Hive日志搜集系统. 一.日志搜集系统架构: 简单画了一下日志搜集系统的架构图,可以看出,flume承担了agent与 ...
flume 测试 hive sink
测试flume,将数据送到hive表中,首先建表. create table order_flume( order_id string, user_id string, eval_set string ...
从0到1搭建基于Kafka、Flume和Hive的海量数据分析系统(一)数据收集应用
大数据时代,一大技术特征是对海量数据采集.存储和分析的多组件解决方案.而其中对来自于传感器.APP的SDK和各类互联网应用的原生日志数据的采集存储则是基本中的基本.本系列文章将从0到1,概述一下搭建基 ...
简单测试flume+kafka+storm的集成
集成 Flume/kafka/storm 是为了收集日志文件而引入的方法,最终将日志转到storm中进行分析.storm的分析方法见后面文章,这里只讨论集成方法. 以下为具体步骤及测试方法: 1.分别 ...
简单模拟flume
NetCat方式: 远程访问的方式进行消息传递配置一个Agent,主要配置三个组件: source, channel, sink 上图中为什么channel会带s,变成channels? 可以绑定多 ...
Flume架构以及应用介绍[转]
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出 ...
Flume架构以及应用介绍
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引 ...
Flume初始
一.Flume是什么 Flume是一个数据,日志收集的一个组件,可以用于对程序,nginx等日志的收集,而且非常简单,省时的做完收集的工作.Flume是一个分布式.可靠.和高可用的海量日志采集聚合和传 ...
Flume日志收集系统介绍
转自:http://blog.csdn.net/a2011480169/article/details/51544664 在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程: 从Ha ...

随机推荐

VS2010编译Qt4.8.2的64版本库
安装qt-win-opensource-4.8.2-vs2010.exe(从http://download.qt.io/archive/qt/4.8/4.8.2/下载),这个是32位的,里面有编译好 ...
不同版本CUDA编程的问题
1 无法装上CUDA的toolkit 卸载所有的NVIDIA相关的app,包括NVIDIA的显卡驱动,然后重装. 2之前的文件打不开,one or more projects in the solut ...
杨辉三角用java实现
代码如下: public class ErArray { public static void main(String[] args) { //杨辉三角 int[][] num = new int[1 ...
Mysql复制之路由
在主从复制读写分离的思路下,要想使所有写都到MasterServer,所有读都路由到Slave Server;就需要使用一些路由策略. 可以使用MysqlProxy[Mysql代理],据说MysqlP ...
Swift - 让程序挂起后，能在后台继续运行任务
1,程序的挂起和退出由于iOS设备资源有限.当用户点击了home键,或者另一个应用程序启动了.那么原先那个程序便进入后台被挂起,不是退出,只是停止执行代码,同时它的内存被锁定.当应用程序恢复时,它会 ...
LeetCode : 287. Find the Duplicate Number
aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAACRAAAAMMCAYAAAAhQhmZAAAMFGlDQ1BJQ0MgUHJvZmlsZQAASImVlw ...
web项目没有run on server时..
文章转载至:http://blog.csdn.net/hongchangfirst/article/details/7722703 web项目没有run on server 1.首先确保正确安装Tom ...
学习一下《JavaEE开发的颠覆者 Spring Boot实战》
SPRING,绕不过去的.
VC++中字符串编码的转换
在以前VC++6.0中默认的字符集是多字节字符集(MBCS:Multi-Byte Character Set),而VS2005及以后默认的字符集是Unicode,这样导致以前在VC6.0中非常简单实用 ...
C# SMTP邮件发送分类： C# 2014-07-13 19:10 333人阅读评论(1) 收藏
邮件发送在网站应用程序中经常会用到,包括您现在看到的博客,在添加评论后,系统会自动发送邮件通知到我邮箱的,把系统发送邮件的功能整理了下,做了一个客户端Demo,希望对有需要的童鞋有所帮助: 核心代码: ...

简单的Flume和hive的结合

简单的Flume和hive的结合的更多相关文章

随机推荐

热门专题