1. 前言

在一个完整的离线大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，
而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：

2. Flume基本介绍

1. 概述

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。
Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中
一般的采集需求，通过对flume的简单配置即可实现
Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景

2. 运行机制

Flume分布式系统中最核心的角色是agent，flume采集系统就是由一个个agent所连接起来形成的
每一个agent相当于一个数据传递员，内部有三个组件：
- Source：采集组件，用于跟数据源对接，以获取数据
- Sink：下沉组件，用于往下一级agent传递数据或者往最终存储系统传递数据
- Channel：传输通道组件，用于从source将数据传递到sink

3. Flume采集系统结构图

1. 简单结构

单个agent采集数据

2. 复杂结构

两个agent之间串联
多级agent之间串联
多级channel

Flume的安装部署

第一步：下载解压修改配置文件

Flume的安装非常简单，只需要解压即可
上传安装包到数据源所在节点上

这里我们在第三台机器hadoop03来进行安装

cd /bigdata/soft

tar -xzvf apache-flume-1.9.0-bin.tar.gz -C /bigdata/install/

cd /bigdata/install/apache-flume-1.9.0-bin/conf/

cp flume-env.sh.template flume-env.sh

vim flume-env.sh

修改如下内容

export JAVA_HOME=/kkb/install/jdk1.8.0_141

2. 解决jar包冲突

apache-flume-1.9.0-bin、hadoop-3.1.4都有guava包，但是版本不一致，会造成冲突

解决冲突；将hadoop中高版本的guava包，替换flume中低版本的包

cd /bigdata/install/flume-1.9.0/lib

rm -f guava-11.0.2.jar

cp /bigdata/install/hadoop-3.1.4/share/hadoop/common/lib/guava-27.0-jre.jar .

Flume实战案例 -- 从网卡某个端口采集数据到控制台

需求：配置我们的网络收集的配置文件；从某socket端口采集数据，采集到的数据打印到console控制台
在flume的conf目录下新建一个配置文件（采集方案）
```
cd /bigdata/install/flume-1.9.0/conf

vim netcat-logger.conf
```

内容如下

# 定义这个agent中各组件的名字

a1.sources = r1

a1.sinks = k1

a1.channels = c1

# 描述和配置source组件：r1

a1.sources.r1.type = netcat

# 当前节点的ip地址

a1.sources.r1.bind = hadoop03

a1.sources.r1.port = 44444

# 描述和配置sink组件：k1

a1.sinks.k1.type = logger

# 描述和配置channel组件，此处使用是内存缓存的方式

a1.channels.c1.type = memory

# channel中存储的event的最大个数

a1.channels.c1.capacity = 1000

# channel每次从source获得的event最多个数或一次发往sink的event最多个数

a1.channels.c1.transactionCapacity = 100

# 描述和配置source  channel   sink之间的连接关系

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

对应类型组件的官网文档

netcat-tcp-source

logger-sink

memory-channel

第三步：启动配置文件

指定采集方案配置文件，在相应的节点上启动flume agent
先用一个最简单的例子来测试一下程序环境是否正常
启动agent去采集数据
```
bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console
```
-c conf 指定flume自身的conf目录中的配置文件

-f conf/netcat-logger.con 指定我们所描述的采集方案

-n a1 指定我们这个agent的名字

-Dflume.root.logger=INFO,console 将info级别的日志打印到控制台

第四步：安装telent准备测试

在hadoop02机器上面安装telnet客户端，用于模拟数据的发送

sudo yum -y install telnet

telnet hadoop03 44444  # 使用telnet模拟数据发送

具体结果如下图所示

Flume实战案例 -- 采集某个目录到HDFS

需求分析

采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去
结构示意图：
根据需求，首先定义以下3大要素
- 数据源组件，即source ——监控文件目录 : spooldir
  
  spooldir特性：
  
  1、监视一个目录，只要目录中出现新文件，就会采集文件中的内容
  
  2、采集完成的文件，会被agent自动添加一个后缀：COMPLETED
  
  3、此source可靠，不会丢失数据；即使flume重启或被kill
  
  注意：
  
  所监视的目录中不允许有同名的文件；且文件被放入spooldir后，就不能修改
  
  ①如果文件放入spooldir后，又向文件写入数据，会打印错误及停止
  
  ②如果有同名的文件出现在spooldir，也会打印错误及停止
- 下沉组件，即sink——HDFS文件系统 : hdfs sink
- 通道组件，即channel——可用file channel 也可以用内存channel

flume配置文件开发

配置文件编写：

cd /bigdata/install/flume-1.9.0/conf/

mkdir -p /bigdata/install/mydata/flume/dirfile

vim spooldir.conf

内容如下

# Name the components on this agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

# Describe/configure the source

# 注意：不能往监控目中重复丢同名文件

a1.sources.r1.type = spooldir

# 监控的路径

a1.sources.r1.spoolDir = /bigdata/install/mydata/flume/dirfile

# Whether to add a header storing the absolute path filename

#文件绝对路径放到header

a1.sources.r1.fileHeader = true

# Describe the sink

a1.sinks.k1.type = hdfs

a1.sinks.k1.channel = c1

#采集到的数据写入到次路径

a1.sinks.k1.hdfs.path = hdfs://hadoop01:8020/spooldir/files/%y-%m-%d/%H%M/

# 指定在hdfs上生成的文件名前缀

a1.sinks.k1.hdfs.filePrefix = events-

# timestamp向下舍round down

a1.sinks.k1.hdfs.round = true

# 按10分钟，为单位向下取整；如55分，舍成50；38 -> 30

a1.sinks.k1.hdfs.roundValue = 10

# round的单位

a1.sinks.k1.hdfs.roundUnit = minute

# 每3秒滚动生成一个文件；默认30；(0 = never roll based on time interval)

a1.sinks.k1.hdfs.rollInterval = 3

# 每x字节，滚动生成一个文件；默认1024；(0: never roll based on file size)

a1.sinks.k1.hdfs.rollSize = 20

# 每x个event，滚动生成一个文件；默认10； (0 = never roll based on number of events)

a1.sinks.k1.hdfs.rollCount = 5

# 每x个event，flush到hdfs

a1.sinks.k1.hdfs.batchSize = 1

# 使用本地时间

a1.sinks.k1.hdfs.useLocalTimeStamp = true

#生成的文件类型，默认是Sequencefile；可选DataStream，则为普通文本；可选CompressedStream压缩数据

a1.sinks.k1.hdfs.fileType = DataStream

# Use a channel which buffers events in memory

a1.channels.c1.type = memory

# channel中存储的event的最大数目

a1.channels.c1.capacity = 1000

# 每次传输数据，从source最多获得event的数目或向sink发送的event的最大的数目

a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

组件官网地址：

spooling directory source

hdfs sink

memory channel

Channel参数解释：
- capacity：默认该通道中最大的可以存储的event数量
- trasactionCapacity：每次最大可以从source中拿到或者送到sink中的event数量
- keep-alive：event添加到通道中或者移出的允许时间

启动flume

cd /bigdata/install/flume-1.9.0

bin/flume-ng agent -c ./conf -f ./conf/spooldir.conf -n a1 -Dflume.root.logger=INFO,console

上传文件到指定目录

将不同的文件上传到下面目录里面去，注意文件不能重名

mkdir -p /home/hadoop/datas

cd /home/hadoop/datas

vim a.txt

# 加入如下内容

ab cd ef

english math

hadoop alibaba

再执行；

  cp a.txt /bigdata/install/mydata/flume/dirfile

然后观察flume的console动静、hdfs webui生成的文件
观察spooldir的目标目录
将同名文件再次放到/bigdata/install/mydata/flume/dirfile观察现象：
```
cp a.txt /bigdata/install/mydata/flume/dirfile
```
flume控制台报错

Flume实战案例 -- 采集文件到HDFS

需求分析：

采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs
根据需求，首先定义以下3大要素
- 采集源，即source——监控文件内容更新 : exec ‘tail -f file’
- 下沉目标，即sink——HDFS文件系统 : hdfs sink
- Source和sink之间的传递通道——channel，可用file channel 也可以用内存channel

flume的配置文件开发

hadoop03开发配置文件

cd /bigdata/install/flume-1.9.0/conf

vim tail-file.conf

配置文件内容

agent1.sources = source1

agent1.sinks = sink1

agent1.channels = channel1

# Describe/configure tail -F source1

agent1.sources.source1.type = exec

agent1.sources.source1.command = tail -f /bigdata/install/mydata/flume/taillogs/access_log

agent1.sources.source1.channels = channel1

# Describe sink1

agent1.sinks.sink1.type = hdfs

agent1.sinks.sink1.hdfs.path = hdfs://hadoop01:8020/weblog/flume-collection/%y-%m-%d/%H-%M

agent1.sinks.sink1.hdfs.filePrefix = access_log

# 允许打开的文件数；如果超出5000，老文件会被关闭

agent1.sinks.sink1.hdfs.maxOpenFiles = 5000

agent1.sinks.sink1.hdfs.batchSize= 100

agent1.sinks.sink1.hdfs.fileType = DataStream

agent1.sinks.sink1.hdfs.writeFormat =Text

agent1.sinks.sink1.hdfs.rollSize = 102400

agent1.sinks.sink1.hdfs.rollCount = 1000000

agent1.sinks.sink1.hdfs.rollInterval = 60

agent1.sinks.sink1.hdfs.round = true

agent1.sinks.sink1.hdfs.roundValue = 10

agent1.sinks.sink1.hdfs.roundUnit = minute

agent1.sinks.sink1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory

agent1.channels.channel1.type = memory

# 向channel添加一个event或从channel移除一个event的超时时间

agent1.channels.channel1.keep-alive = 120

agent1.channels.channel1.capacity = 5000    ##设置过大，效果不是太明显

agent1.channels.channel1.transactionCapacity = 4500

# Bind the source and sink to the channel

agent1.sources.source1.channels = channel1

agent1.sinks.sink1.channel = channel1

组件官网：

hdfs sink

memory channel

启动flume

cd /bigdata/install/flume-1.9.0

bin/flume-ng agent -c conf -f conf/tail-file.conf -n agent1 -Dflume.root.logger=INFO,console

开发shell脚本定时追加文件内容

mkdir -p /home/hadoop/shells/

cd /home/hadoop/shells/

vim tail-file.sh

内容如下

#!/bin/bash

while true

do

 date >> /bigdata/install/mydata/flume/taillogs/access_log;

  sleep 0.5;

done

创建文件夹

mkdir -p /bigdata/install/mydata/flume/taillogs/

启动脚本

chmod u+x tail-file.sh

sh /home/hadoop/shells/tail-file.sh

验证结果，在hdfs的webui下和console下可以看到如下截图

Flume实战案例 -- 从HDFS上读取某个文件到本地目录

需求分析

我们从HDFS上的特定目录下的文件，读取到本地目录下的特定目录下
根据需求，首先定义以下3大要素
- 数据源组件，即source ——监控HDFS目录文件 : exec 'tail -f'
- 下沉组件，即sink—— file roll sink
- 通道组件，即channel——可用file channel 也可以用内存channel

flume配置文件开发

配置文件编写：

cd /bigdata/install/flume-1.9.0/conf/

vim hdfs2local.conf

内容如下

# Name the components on this agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

# Describe/configure the source

# 注意：不能往监控目中重复丢同名文件

a1.sources.r1.type = exec

a1.sources.r1.command = hdfs dfs -tail -f /hdfs2flume/test/a.txt

a1.sources.r1.channels = c1

# sink 配置信息

a1.sinks.k1.type = file_roll

a1.sinks.k1.channel = c1

a1.sinks.k1.sink.directory = /bigdata/install/mydata/flume/hdfs2local

a1.sinks.k1.sink.rollInterval = 3600

a1.sinks.k1.sink.pathManager.prefix = event-

a1.sinks.k1.sink.serializer = TEXT

a1.sinks.k1.sink.batchSize = 100

# Use a channel which buffers events in memory

a1.channels.c1.type = memory

# channel中存储的event的最大数目

a1.channels.c1.capacity = 1000

# 每次传输数据，从source最多获得event的数目或向sink发送的event的最大的数目

a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

准备HDFS文件信息

vi a.txt

#输入一下内容，保存并推送到HDFS上

1  zhangsan  21

2  lisi  22

3  wangwu  23

4  zhaoliu  24

5  guangyunchang  25

6  gaojianli  27

hdfs dfs -put ./a.txt /hdfs2flume/test/a.txt

准备本地目录文件夹

mkdir -p /bigdata/install/mydata/flume/hdfs2local

启动flume

cd /bigdata/install/flume-1.9.0

bin/flume-ng agent -c ./conf -f ./conf/hdfs2local.conf -n a1 -Dflume.root.logger=INFO,console

追加hdfs上a.txt文件内容，验证本地目录文件夹，如下图

日志数据采集-Flume的更多相关文章

flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去
1. openrestry的安装 OpenResty = Nginx + Lua,是⼀一个增强的Nginx,可以编写lua脚本实现⾮非常灵活的逻辑 (1)安装开发库依赖 yum install -y ...
海量日志采集Flume(HA)
海量日志采集Flume(HA) 1.介绍: Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据 ...
消费滚动滴log日志文件(flume监听,kafka消费,zookeeper协同)
第一步:数据源手写程序实现自动生成如下格式的日志文件: 15837312345,13737312345,2017-01-09 08:09:10,0360 打包放到服务器,使用如下命令执行,模拟持续不 ...
log4j输出日志到flume
现需要通过log4j将日志输出到flume,通过flume将日志写到文件或hdfs中配置flume-config文件将日志下沉至文件 a1.sources = r1 a1.sinks = k1 a ...
【实时数仓】Day01-数据采集层：数仓分层、实时需求、架构分析、日志数据采集（采集到指定topic和落盘）、业务数据采集（MySQL-kafka）、Nginx反向代理、Maxwell、Canel
一.数仓分层介绍 1.实时计算与实时数仓实时计算实时性高,但无中间结果,导致复用性差实时数仓基于数据仓库,对数据处理规划.分层,目的是提高数据的复用性 2.电商数仓的分层 ODS:原始日志数据和业 ...
海量日志采集系统flume架构与原理
1.Flume概念 flume是分布式日志收集系统,将各个服务器的数据收集起来并发送到指定地方. Flume是Cloudera提供的一个高可用.高可靠.分布式的海量日志采集.聚合和传输的系统.Flum ...
log4j直接输出日志到flume
log4j.properties配置: log4j.rootLogger=INFOlog4j.category.com.besttone=INFO,flumelog4j.appender.flume ...
log4j2 输入日志到flume
最近想将服务的运行日志收集起来,首先了解到flume技术栈采用flume方案定了之后有两种方式实现 1: 在应用中,log4j2直接发送日志信息到flume , 2: 通过监控log4j2 产生的日 ...
将nginx搜集到的日志通过flume转到hive
背景介绍: Nginx为app打点数据,打点日志每小时滚动一次.目录结构如下文件中的数据如下( cat -A 2019072414r.log 后的结果,-A为显示隐形的符号,下方^A为指定的分隔符. ...
Nginx日志通过Flume导入到HDFS中
关注公众号:分享电脑学习回复"百度云盘" 可以免费获取所有学习文档的代码(不定期更新) flume上传到hdfs: 当我们的数据量比较大时,比如每天的日志文件达到5G以上使用ha ...

随机推荐

Sqlsugar调用Oracle的存储过程
前段时间在搬迁项目的时候,遇到一个问题,就是用sqlsugar调用oracle的存储过程的时候调用不了: 当时卡了一整天,现在有空了把这个问题记录分享一下. 先去nuget上安装一下sqlsugar的 ...
sealos快速部署K8S
使用 Sealos 快速部署一个生产级别的 Kubernetes 高可用集群一.集群规划 k8s-master1 10.0.19.127 k8s-master2 10.0.19.128 k8s-ma ...
14.Kubernetes核心技术Helm
Kubernetes核心技术Helm Helm就是一个包管理工具[类似于npm] 为什么引入Helm 首先在原来项目中都是基于yaml文件来进行部署发布的,而目前项目大部分微服务化或者模块化,会分成很 ...
[这可能是最好的Spring教程！]Maven的模块管理——如何拆分大项目并且用parent继承保证代码的简介性
问题的提出在软件开发中,我们为了减少软件的复杂度,是不会把所有的功能都塞进一个模块之中的,塞在一个模块之中对于软件的管理无疑是极其困难且复杂的.所以把一个项目拆分为模块无疑是一个好方法 ┌ ─ ─ ...
从零开始的Python世界生活——内置模块(Math)
从零开始的Python世界生活--内置模块(Math) Python的math模块提供了丰富的数学函数和常数,支持基本的数学运算.三角函数.对数.指数等,适用于科学计算和工程应用. 数学常量: 注意m ...
Mybatis【13】-- Mybatis动态Sql标签的使用
mybatis有一个强大的特性,其他框架在拼接sql的时候要特别谨慎,比如哪里需要空格,还要注意去掉列表最后一个列名的逗号,mybtis的动态sql可以帮助我们逃离这样的痛苦挣扎,那就是动态SQL.它 ...
H5扫码
1.前言 H5可以获取视频流,并通过video元素进行播放可以canvas对视频进行定时截图,然后使用插件对图片进行二维码解析也可以直接对视频进行二维码解析(推荐) 解析二维码的插件为qr-sca ...
IntelliJ IDEA 中 ctrl + w 一键选中双引号中的字符串内容
记录下,之前一直知道在 IntelliJ IDEA 中快速选中一个词的快捷键是 ctrl + w,可是有时我们想一键选中双引号中的字符串内容,正好这个字符串中的内容有各种特殊字符,比如",& ...
nodejs版本控制器nvm安装及简单使用
介绍:nvm是node.js的版本管理器,可以安装和切换不同版本node.js 下载:https://github.com/coreybutler/nvm-windows/releases 官网下载: ...
Python 2.7 十六进制字符数组转字符串（字符是Unicode字符）
有一串十六进制数据,是Uncode字符. import struct strhex='003100310031' buf = strhex.decode("hex") value= ...

日志数据采集-Flume

1. 前言

2. Flume基本介绍

1. 概述

2. 运行机制

3. Flume采集系统结构图

1. 简单结构

2. 复杂结构

Flume的安装部署

第一步：下载解压修改配置文件

2. 解决jar包冲突

Flume实战案例 -- 从网卡某个端口采集数据到控制台

第三步：启动配置文件

第四步：安装telent准备测试

Flume实战案例 -- 采集某个目录到HDFS

需求分析

flume配置文件开发

启动flume

上传文件到指定目录

Flume实战案例 -- 采集文件到HDFS

需求分析：

flume的配置文件开发

启动flume

开发shell脚本定时追加文件内容

Flume实战案例 -- 从HDFS上读取某个文件到本地目录

需求分析

flume配置文件开发

日志数据采集-Flume的更多相关文章

随机推荐

热门专题