Flume 入门--几种不同的Sinks

主要介绍几种常见Flume的Sink--汇聚点

1.Logger Sink

记录INFO级别的日志，一般用于调试。前面介绍Source时候用到的Sink都是这个类型的Sink

必须配置的属性：

属性说明：
           !channel   –
           !type   –   The component type name, needs to be logger
           maxBytesToLog   16   Maximum number of bytes of the Event body to log

要求必须在 --conf 参数指定的目录下有 log4j的配置文件
可以通过-Dflume.root.logger=INFO,console在命令启动时手动指定log4j参数

案例：前面的例子都是这种类型的Sink

2.File Roll Sink

在本地文件系统中存储事件。每隔指定时长生成文件保存这段时间内收集到的日志信息。

属性说明：
           !channel   –
           !type   –   类型，必须是"file_roll"
           !sink.directory   –   文件被存储的目录
           sink.rollInterval   30   滚动文件每隔30秒（应该是每隔30秒钟单独切割数据到一个文件的意思）。如果设置为0，则禁止滚动，从而导致所有数据被写入到一个文件。
           sink.serializer   TEXT   Other possible options include avro_event or the FQCN of an implementation of EventSerializer.Builder interface.
           batchSize   100

案例：

　　　　　　　　　　　　　　编写配置文件:

				＃命名Agent a1的组件

				a1.sources  =  r1

				a1.sinks  =  k1

				a1.channels  =  c1

				＃描述/配置Source

				a1.sources.r1.type  = http

				a1.sources.r1.port  = 6666

				＃描述Sink

				a1.sinks.k1.type  = file_roll

				a1.sinks.k1.sink.directory = /home/park/work/apache-flume-1.6.0-bin/mysink

				＃描述内存Channel

				a1.channels.c1.type  =  memory

				a1.channels.c1.capacity  =  1000

				a1.channels.c1.transactionCapacity  =  100

				＃为Channle绑定Source和Sink

				a1.sources.r1.channels  =  c1

				a1.sinks.k1.channel  =  c1

启动flume：

./flume-ng agent --conf ../conf --conf-file ../conf/template7.conf --name a1 -Dflume.root.logger=INFO,console

测试：

通过curl命令向目标主机发送请求，就会发现在指定的文件夹下出现记录收集日志的文件

3.Avro Sink

是实现多级流动和扇出流(1到多) 扇入流(多到1) 的基础。非常重要但是需要多台机器

必要属性说明:
           !channel   –
           !type   –   The component type name, needs to be avro.
           !hostname   –   The hostname or IP address to bind to.
           !port   –   The port # to listen on.

案例1.多级流动 h1流动到h2

h2:

				配置配置文件:

					#命名Agent组件

					a1.sources=r1

					a1.sinks=k1

					a1.channels=c1

					#描述/配置Source

					a1.sources.r1.type=avro

					a1.sources.r1.bind=0.0.0.0

					a1.sources.r1.port=9988

					#描述Sink

					a1.sinks.k1.type=logger

					#描述内存Channel

					a1.channels.c1.type=memory

					a1.channels.c1.capacity=1000

					a1.channels.c1.transactionCapacity=1000

					#为Channel绑定Source和Sink

					a1.sources.r1.channels=c1

					a1.sinks.k1.channel=c1

				启动flume:

					./flume-ng agent --conf ../conf --conf-file ../conf/template8.conf --name a1 -Dflume.root.logger=INFO,console

			h1:

				配置配置文件

					#命名Agent组件

					a1.sources=r1

					a1.sinks=k1

					a1.channels=c1

					#描述/配置Source

					a1.sources.r1.type=http

					a1.sources.r1.port=8888

					#描述Sink

					a1.sinks.k1.type=avro

					a1.sinks.k1.hostname=192.168.242.138

					a1.sinks.k1.port=9988

					#描述内存Channel

					a1.channels.c1.type=memory

					a1.channels.c1.capacity=1000

					a1.channels.c1.transactionCapacity=1000

					#为Channel绑定Source和Sink

					a1.sources.r1.chafile:///C:/Users/park/Desktop/Day01_Flume/%E6%96%87%E6%A1%A3/Flume%201.6.0%20User%20Guide%20%E2%80%94%20Apache%20Flume.htm#irc-sinknnels=c1

					a1.sinks.k1.channel=c1

启动flume

发送http请求到h1:

curl -X POST -d '[{ "headers" :{"a" : "a1","b" : "b1"},"body" : "hello~http~flume~"}]' http://192.168.242.133:8888

稍等几秒后，发现h2最终收到了这条消息

案例2：扇出流（h1扇出到h2，h3）

h2 h3:

				配置配置文件:

					#命名Agent组件

					a1.sources=r1

					a1.sinks=k1

					a1.channels=c1

					#描述/配置Source

					a1.sources.r1.type=avro

					a1.sources.r1.bind=0.0.0.0

					a1.sources.r1.port=9988

					#描述Sink

					a1.sinks.k1.type=logger

					#描述内存Channel

					a1.channels.c1.type=memory

					a1.channels.c1.capacity=1000

					a1.channels.c1.transactionCapacity=1000

					#为Channel绑定Source和Sink

					a1.sources.r1.channels=c1

					a1.sinks.k1.channel=c1

				启动flume:

					./flume-ng agent --conf ../conf --conf-file ../conf/template8.conf --name a1 -Dflume.root.logger=INFO,console

			h1:

				配置配置文件

					#命名Agent组件

					a1.sources=r1

					a1.sinks=k1 k2

					a1.channels=c1 c2

					#描述/配置Source

					a1.sources.r1.type=http

					a1.sources.r1.port=8888

					#描述Sink

					a1.sinks.k1.type=avro

					a1.sinks.k1.hostname=192.168.242.138

					a1.sinks.k1.port=9988

					a1.sinks.k2.type=avro

					a1.sinks.k2.hostname=192.168.242.135

					a1.sinks.k2.port=9988

					#描述内存Channel

					a1.channels.c1.type=memory

					a1.channels.c1.capacity=1000

					a1.channels.c1.transactionCapacity=1000

					a1.channels.c2.type=memory

					a1.channels.c2.capacity=1000

					a1.channels.c2.transactionCapacity=1000

					#为Channel绑定Source和Sink

					a1.sources.r1.channels=c1 c2

					a1.sinks.k1.channel=c1

					a1.sinks.k2.channel=c2

案例3：扇入流（）

m3:

				编写配置文件:

					#命名Agent组件

					a1.sources=r1

					a1.sinks=k1

					a1.channels=c1

					#描述/配置Source

					a1.sources.r1.type=avro

					a1.sources.r1.bind=0.0.0.0

					a1.sources.r1.port=4141

					#描述Sink

					a1.sinks.k1.type=logger

					#描述内存Channel

					a1.channels.c1.type=memory

					a1.channels.c1.capacity=1000

					a1.channels.c1.transactionCapacity=1000

					#为Channel绑定Source和Sink

					a1.sources.r1.channels=c1

					a1.sinks.k1.channel=c1

				启动flume:

					./flume-ng agent --conf ../conf --conf-file ../conf/template.conf --name a1 -Dflume.root.logger=INFO,console

			m1、m2:

				编写配置文件:

					#命名Agent组件

					a1.sources=r1

					a1.sinks=k1

					a1.channels=c1

					#描述/配置Source

					a1.sources.r1.type=http

					a1.sources.r1.port=8888

					#描述Sink

					a1.sinks.k1.type=avro

					a1.sinks.k1.hostname=192.168.242.135

					a1.sinks.k1.port=4141

					#描述内存Channel

					a1.channels.c1.type=memory

					a1.channels.c1.capacity=1000

					a1.channels.c1.transactionCapacity=1000

					#为Channel绑定Source和Sink

					a1.sources.r1.channels=c1

					a1.sinks.k1.channel=c1

				启动flume:

					./flume-ng agent --conf ../conf --conf-file ../conf/template9.conf --name a1 -Dflume.root.logger=INFO,console

				m1通过curl发送一条http请求，由于默认使用的是jsonHandler，数据格式必须是指定的json格式：

					[root@localhost conf]# curl -X POST -d '[{ "headers" :{"flag" : "c"},"body" : "idoall.org_body"}]' http://0.0.0.0:8888

			 	m2通过curl发送一条http请求，由于默认使用的是jsonHandler，数据格式必须是指定的json格式：

					[root@localhost conf]# curl -X POST -d '[{ "headers" :{"flag" : "c"},"body" : "idoall.org_body"}]' http://0.0.0.0:8888

				发现m3均能正确收到消息

4、HDFS Sink

此Sink将事件写入到Hadoop分布式文件系统HDFS中。
           目前它支持创建文本文件和序列化文件。对这两种格式都支持压缩。这些文件可以分卷，按照指定的时间或数据量或事件的数量为基础。
           它还通过类似时间戳或机器属性对数据进行 buckets/partitions 操作
           HDFS的目录路径可以包含将要由HDFS替换格式的转移序列用以生成存储事件的目录/文件名。
           使用这个Sink要求hadoop必须已经安装好，以便Flume可以通过hadoop提供的jar包与HDFS进行通信。
           注意，此版本hadoop必须支持sync()调用。

必要属性说明:
               !channel   –
               !type   –   类型名称，必须是“HDFS”
               !hdfs.path   –   HDFS 目录路径 (eg hdfs://namenode/flume/webdata/)
               hdfs.filePrefix   FlumeData   Flume在目录下创建文件的名称前缀
               hdfs.fileSuffix   –   追加到文件的名称后缀 (eg .avro - 注: 日期时间不会自动添加)
               hdfs.inUsePrefix   –   Flume正在处理的文件所加的前缀
               hdfs.inUseSuffix   .tmp   Flume正在处理的文件所加的后缀

案例：

                #命名Agent组件

					a1.sources=r1

					a1.sinks=k1

					a1.channels=c1

					#描述/配置Source

					a1.sources.r1.type=http

					a1.sources.r1.port=8888

					#描述Sink

					a1.sinks.k1.type=hdfs

					a1.sinks.k1.hdfs.path=hdfs://0.0.0.0:9000/ppp

					#描述内存Channel

					a1.channels.c1.type=memory

					a1.channels.c1.capacity=1000

					a1.channels.c1.transactionCapacity=1000

					#为Channel绑定Source和Sink

					a1.sources.r1.channels=c1

					a1.sinks.k1.channel=c1

启动flume：

./flume-ng agent --conf ../conf --conf-file ../conf/template9.conf --name a1 -Dflume.root.logger=INFO,console

测试：通过利用curl给目的主机发送命令，会发现在HDFS中会生成相应的记录文件。

Flume 入门--几种不同的Sinks的更多相关文章

Flume 入门--几种不同的Sources
1.flume概念 flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集.聚集和移动,并以集中式的数据存储的系统. flume目前是apache的一个顶级项目. flum ...
大数据学习day35----flume01-------1 agent（关于agent的一些问题），2 event，3 有关agent和event的一些问题，4 transaction(事务控制机制)，5 flume安装 6.Flume入门案例
具体见文档,以下只是简单笔记(内容不全) 1.agent Flume中最核心的角色是agent,flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道.对于每一个Age ...
《OD大数据实战》Flume入门实例
一.netcat source + memory channel + logger sink 1. 修改配置 1)修改$FLUME_HOME/conf下的flume-env.sh文件,修改内容如下 e ...
Flume入门
1.Flume是什么? ○ Flume是由cloudera开发的实时日志收集系统 ○ 核心概念是由一个叫做Agent(代理节点)的java进程运行在日志收集节点 ○ Flume在0.94. ...
Apache Flume入门指南[翻译自官方文档]
声明: 根据官方文档选择性的翻译了下,不对请指正 https://flume.apache.org/FlumeUserGuide.html
Flume入门：安装、部署
一.什么是Flume? flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用.Flume 初始的发行版本目前被统称为 Flume OG(original genera ...
Flume入门——Selector、Chanel等
1.selector (http://blog.csdn.net/looklook5/article/details/40430965) (http://blog.csdn.net/xiao_jun_ ...
Flume入门样例
Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用.Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 clo ...
大数据入门第十二天——flume入门
一.概述 1.什么是flume 官网的介绍:http://flume.apache.org/ Flume is a distributed, reliable, and available servi ...

随机推荐

硬件原理图Checklist检查表（通用版）
类别描述检视规则原理图需要进行检视,提交集体检视是需要完成自检,确保没有低级问题. 检视规则原理图要和公司团队和可以邀请的专家一起进行检视. 检视规则第一次原理图发出进行集体检视后所有的修改 ...
再学习Webform页面生命周期
参考文章: 在vs2010,新建一个aspx页面,页面头部有一行代码: <%@ Page Language="C#" AutoEventWireup="true&q ...
win7 php连接远程oracle
<?php /* 先下载oracle客户端下载地址 http://www.oracle.com/technetwork/topics/winx64soft-089540.html 下载如下三个 ...
hadoop fs 部分命令详解
1,Hadoop fs –fs [local | <file system URI>]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop ...
(转)Linux NUMA引发的性能问题
最近某客户的核心业务系统又出了翻译缓慢的情况.该问题在6月份也出现过,当时进行了一次调整. 我们首先来看下故障时间段的awr报告: 单纯的从TOP 5 event,基本上是看不出任何东西的,可能有人会 ...
每个zone的low memory是怎么计算出来的
内核都是试图让活动页和不活动页的数量均衡在分配内存时每次都会唤醒wakeup_swapd,这个函数会在现在是不是已经没有全局的LRU表了?已经都变成per cgroup级别的LRU表了吗? ina ...
Struts2自定义结果视图（servlet验证码）
1.编写一个类实现com.opensymphony.xwork2.Result,或者继承org.apache.struts2.dispatcher.StrutsResultSupport 2.自定义的 ...
bzoj3502[PA2012]Tanie Linie(最大k区间和)
题意:给定一个长为n的数列,要求选出最多k个不相交的区间(可以不选),使得选中的数字之和最大.(1<=k<=n<=1000000)分析:首先我们通过预处理对问题做一些简化.原序列中的 ...
Python：树的遍历
各种遍历顺序如下图所示: 树的最大深度 # class TreeNode(object): # def __init__(self, x): # self.val = x # self.left = ...
POJ3690：Constellations——题解
http://poj.org/problem?id=3690 题目大意:给一个图和几个子图,判断有多少种子图在原图出现过. —————————————————————— 二维哈希即可,操作看代码,我觉 ...

Flume 入门--几种不同的Sinks

Flume 入门--几种不同的Sinks的更多相关文章

随机推荐

热门专题