Flume 实战练习
前期准备
了解Flume 架构及核心组件
Flume 架构及核心组件

Source : 收集(指定数据源从哪里获取)
Channel : 聚集
Sink : 输出(把数据写到哪里去)
学习使用 Flume
通过一个简单的小例子学习使用 Flume
使用 Flume 的关键就是写配置文件
配置文件的构成:
A) 配置 Source
B) 配置 Channel
C) 配置 Sink
D) 把以上三个组件串起来
A simple example
1 |
# Name the components on this agent |
实战一
需求
需求:从指定网络端口采集数据输出到控制台
写配置文件
在 /abs/app/apache-flume-1.6.0-cdh5.7.0-bin/conf 目录中新建 example.conf 如下:
1 |
# Name the components on this agent |
启动 agent
Flume 官网启动 agent 的命令:
1 |
$ bin/flume-ng agent -n $agent_name -c conf -f conf/flume-conf.properties.template |
agent options:
1 |
--name,-n <name> the name of this agent (required) |
实际用的启动 agent 的命令:
1 |
flume-ng agent -n a1 -c $FLUME_HOME $FLUME_HOME/conf/example.conf -Dflume.root.logger=INFO,console |
// Dflume.root.logger=INFO,console 为将输出结果显示到控制台
启动失败
1 |
Info: Including Hive libraries found via () for Hive access |
上网查了一下,别人是 -c 的路径指定错误,我的也错了。
-c 后面跟的是 Flume 的 conf 目录
所以正确的启动命令为:
1 |
flume-ng agent -n a1 -c $FLUME_HOME/conf -f $FLUME_HOME/conf/example.conf -Dflume.root.logger=INFO,console |
正常启动后可以看到如下:

可以看到 Sink 和 Source 都启动了
绑定的主机名为 hadoop 的 IP 和绑定的端口号都有显示
验证
1 |
[root@hadoop ~]# telnet hadoop 44444 |
显示找不到 telnet ,用 yum install telnet 安装telnet
telnet 进入 hadoop 的 44444 端口进行输入单词按 Enter

agent 的那一端显示如下:

从图中可以看到如下:
1 |
Event: { headers:{} body: 73 70 61 72 6B 0D spark. }
|
Event 是 Flume 数据传输的基本单元
Event = 可选的 header + byte array
以上实现了从指定网络端口采集数据输出到控制台的需求。
实战二
需求
需求:监控一个文件实时采集新增的数据输出到控制台
根据需求可以采用以下方案实现:
Agent 选型: exec source + memory channel + logger sink
写配置文件
大专栏 Flume 实战练习在 /abs/data 目录新建 data.log
1 |
touch data.log |
在 /abs/app/apache-flume-1.6.0-cdh5.7.0-bin/conf 目录中新建 exec-memory-logger.conf 如下:
1 |
# exec-memory-logger.conf: A realtime single-node Flume configuration |
启动 agent
Flume 启动 agent 的命令:
1 |
flume-ng agent -n a1 -c $FLUME_HOME/conf -f $FLUME_HOME/conf/exec-memory-logger.conf -Dflume.root.logger=INFO,console |
// Dflume.root.logger=INFO,console 为将输出结果显示到控制台
正常启动后可以看到如下:

可以看到 Source 、 Channel 和 Sink 的类型和启动类型以及 Source 要执行的命令
验证
在 /abs/data 目录输入 echo hello >> data.log

agent 的那一端显示如下:

以上实现了监控一个文件实时采集新增的数据输出到控制台的需求。
拓展
参照 Flume 用户指南
如果用 Flume 采集数据做离线处理,可以使用 HDFS Sink
如果用 Flume 采集数据做实时处理,可以使用 Kafka Sink
这里只提供一个拓展,根据具体的需求使用。
实战三
需求
需求:将 A 服务器上的日志实时采集到 B 服务器
根据需求可以采用以下方案实现:
Agent A 选型: exec source + memory channel + avro sink
Agent B 选型: avro source + memory channel + logger sink
写配置文件
在 /abs/app/apache-flume-1.6.0-cdh5.7.0-bin/conf 目录中新建如下配置文件:
exec-memory-avro.conf:
1 |
# exec-memory-avro.conf: A realtime Flume configuration |
avro-memory-logger.conf:
1 |
# avro-memory-logger.conf: A realtime Flume configuration |
启动 agent
两个 Agent ,先启动 Agent A ,再启动 Agent B
先启动 avro-memory-logger:
1 |
flume-ng agent -n avro-memory-logger -c $FLUME_HOME/conf -f $FLUME_HOME/conf/avro-memory-logger.conf -Dflume.root.logger=INFO,console |
再启动 exec-memory-avro:
1 |
flume-ng agent -n exec-memory-avro -c $FLUME_HOME/conf -f $FLUME_HOME/conf/exec-memory-avro.conf -Dflume.root.logger=INFO,console |
验证
在 /abs/data/ 目录中输入以下命令:
1 |
echo hello spark >> data.log |
Agent avro-memory-logger 显示如下:

以上实现了将 A 服务器上的日志实时采集到 B 服务器的需求。
这里采用的是一个服务器开三个窗口,有条件的可以尝试用两台服务器进行这个实战练习
Flume 实战练习的更多相关文章
- Flume实战案例运维篇
Flume实战案例运维篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Flume概述 1>.什么是Flume Flume是一个分布式.可靠.高可用的海量日志聚合系统,支 ...
- Flume 实战(1) -- 初体验
前言: Flume-ng是数据收集/聚合/传输的组件, Flume-ng抛弃了Flume OG原本繁重的zookeeper和Master, Collector, 其整体的架构更加的简洁和明了. 其基础 ...
- Flume 实战(2)--Flume-ng-sdk源码分析
具体参考: 官方用户手册和开发指南 http://flume.apache.org/FlumeDeveloperGuide.html *) 定位和简单例子 1). Flume-ng-sdk是用于编写往 ...
- 5.flume实战(二)
需求:监控一个文件实时采集新增的数据并输出到控制台 简单理解就是:监控一个文件,只要这个文件有新的内容追加,就将它输出到控制台. agent技术选型:exec source + memory chan ...
- 4.flume实战(一)
需求:从指定网络端口采集数据输出到控制台 使用flume的关键就是写配置文件 a)配置source b)配置channel c)配置sink d)把以上三个组件串起来 我们看一下官网给的配置文件 # ...
- Flume 实战,将多台机器日志直接收集到 Kafka
目前我们使用的一个 b 端软件的报错日志分散在集群各处,现在想把它收集到一个地方然后统一丢进 Kafka 提供给下游业务进行消费. 我想到了 flume,之前让同事搭建的这次自己想多了解一些细节于是就 ...
- 6.flume实战(三)※
需求:将A服务器上的日志实时采集到B服务器上面去 大致原理: 技术选型: exec source + memory channel + avro sink avro source + memory c ...
- Spark Streaming从Flume Poll数据案例实战和内幕源码解密
本节课分成二部分讲解: 一.Spark Streaming on Polling from Flume实战 二.Spark Streaming on Polling from Flume源码 第一部分 ...
- Flume+Sqoop+Azkaban笔记
大纲(辅助系统) 离线辅助系统 数据接入 Flume介绍 Flume组件 Flume实战案例 任务调度 调度器基础 市面上调度工具 Oozie的使用 Oozie的流程定义详解 数据导出 sqoop基础 ...
随机推荐
- CF633H Fibonacci-ish II(莫队+线段树)
温馨提示:本题十分卡常数,我手动开O2才过的.而数据范围不伦不类的n<=30000,常数小的O(n2)居然比O(n√nlogn)跑得快…… 考虑插进去一个元素对答案产生的影响.原本数列为Σa[i ...
- 10. 通过 Dockerfile 编写 linux 命令行工具
测试 linux 压力的工具 一. 实际操作 1. 创建一个 ubuntu 的容器 docker run -it ubuntu 2. 安装 stress 工具 apt-get update & ...
- jest 测试入门(一)
说实话,作为前端来说,单元测试,并不是一种必须的技能,但是确实一种可以让你加法的技能 之前我一个库添加了单元测试,加完之后感悟颇深,所以写下这篇文章来记录 环境搭建 一般来说,普通的库,如果没有添加 ...
- sphinx转pdf显示中文
在conf.py中 修改, 加入 ctex包 latex_elements = { # The paper size ('letterpaper' or 'a4paper'). #'papersize ...
- java中多线程入门有趣介绍
我们在网上可以看到所有有关于java的线程的基本概念的很多解释,不乏有很多详细经典的解释和代码解说.但是我们的很多初学者看完不能有一个直观的印象,特别是一些没有编程基础的学习者,很多时候要花很多时间去 ...
- drf中的请求模块和渲染模块
请求模块:request对象 APIView request.py # 在rest_framework.request.Request实例化方法中 self._request = request 将原 ...
- 树分治(挑战p360)
poj1741 题:http://poj.org/problem?id=1741 #include<iostream> #include<algorithm> #include ...
- VisualStudioAddin2016Setup.rar
本工具是用于Visual Studio 2010 /2012 的外接程序. 功能不太多,常用代码,引用管理等. 动态图: 下载地址: VisualStudioAddin2016Setup.rar
- 4)在url中加上a分发参数,用来选哪一个函数
文件关系目录展示: 然后代码改动部分展示: zixun.controller.class.php <?php //header('Content-type:text/html;charset=u ...
- 使用这些高效Java工具类享受开发乐趣
使用这些高效Java工具类享受开发乐趣导语在Java中,工具类定义了一组公共方法,这篇文章将介绍Java中使用最频繁及最通用的Java工具类.在开发中,使用这些工具类,不仅可以提高编码效率,还可以提高 ...