本文源码：GitHub || GitEE

一、Flume简介

1、基础描述

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

特点：分布式、高可用、基于流式架构，通常用来收集、聚合、搬运不同数据源的大量日志到数据仓库。

2、架构模型

Agent包括三个核心组成，Source、Channel、Sink。Source负责接收数据源，并兼容多种类型，Channel是数据的缓冲区，Sink处理数据输出的方式和目的地。

Event是Flume定义的一个数据流传输的基本单元，将数据从源头送至目的地。

Flume可以设置多级Agent连接的方式传输Event数据，从最初的source开始到最终sink传送的目的存储系统，如果数量过多会影响传输速率，并且传输过程中单节点故障也会影响整个传输通道。

Flume支持多路复用数据流到一个或多个目的地，这种模式可以将相同数据复制到多个channel中，或者将不同数据分发到不同的channel中，并且sink可以选择传送到不同的目的地。

Agent1理解为路由节点负责Channel的Event均衡到多个Sink组件，每个Sink组件分別连接到独立的Agent上，实现负载均衡和错误恢复的功能。

Flume的使用组合方式做数据聚合，每台服务器部署一个flume节点采集日志数据，再汇聚传输到存储系统，例如HDFS、Hbase等组件，高效且稳定的解决集群数据的采集。

二、安装过程

1、安装包

apache-flume-1.7.0-bin.tar.gz

2、解压命名

[root@hop01 opt]# pwd

/opt

[root@hop01 opt]# tar -zxf apache-flume-1.7.0-bin.tar.gz

[root@hop01 opt]# mv apache-flume-1.7.0-bin flume1.7

3、配置文件

配置路径：/opt/flume1.7/conf

mv flume-env.sh.template flume-env.sh

4、修改配置

添加JDK依赖

vim flume-env.sh

export JAVA_HOME=/opt/jdk1.8

5、环境测试

安装netcat工具

sudo yum install -y nc

创建任务配置

[root@hop01 flume1.7]# cd job/

[root@hop01 job]# vim flume-netcat-test01.conf

添加基础任务配置

注意：a1表示agent名称。

# this agent

a1.sources = sr1

a1.sinks = sk1

a1.channels = sc1

# the source

a1.sources.sr1.type = netcat

a1.sources.sr1.bind = localhost

a1.sources.sr1.port = 55555

# the sink

a1.sinks.sk1.type = logger

# events in memory

a1.channels.sc1.type = memory

a1.channels.sc1.capacity = 1000

a1.channels.sc1.transactionCapacity = 100

# Bind the source and sink

a1.sources.sr1.channels = sc1

a1.sinks.sk1.channel = sc1

开启flume监听端口

/opt/flume1.7/bin/flume-ng agent --conf /opt/flume1.7/conf/ --name a1 --conf-file /opt/flume1.7/job/flume-netcat-test01.conf -Dflume.root.logger=INFO,console

使用netcat工具向55555端口发送数据

[root@hop01 ~]# nc localhost 55555

hello,flume

查看flume控制面

三、应用案例

1、案例描述

基于flume在各个集群服务进行数据采集，然后数据传到kafka服务，再考虑数据的消费策略。

采集：基于flume组件的便捷采集能力，如果直接使用kafka会产生大量的埋点动作不好维护。

消费：基于kafka容器的数据临时存储能力，避免系统高度活跃期间采集数据过大冲垮数据采集通道，并且可以基于kafka做数据隔离并针对化处理。

2、创建kafka配置

[root@hop01 job]# pwd

/opt/flume1.7/job

[root@hop01 job]# vim kafka-flume-test01.conf

3、修改sink配置

# the sink

a1.sinks.sk1.type = org.apache.flume.sink.kafka.KafkaSink

# topic

a1.sinks.sk1.topic = kafkatest

# broker地址、端口号

a1.sinks.sk1.kafka.bootstrap.servers = hop01:9092

# 序列化方式

a1.sinks.sk1.serializer.class = kafka.serializer.StringEncoder

4、创建kafka的Topic

上述配置文件中名称：kafkatest，下面执行创建命令之后查看topic信息。

[root@hop01 bin]# pwd

/opt/kafka2.11

[root@hop01 kafka2.11]# bin/kafka-topics.sh --create --zookeeper hop01:2181 --replication-factor 1 --partitions 1 --topic kafkatest

[root@hop01 kafka2.11]# bin/kafka-topics.sh --describe --zookeeper hop01:2181 --topic kafkatest

5、启动Kakfa消费

[root@hop01 kafka2.11]# bin/kafka-console-consumer.sh --bootstrap-server hop01:2181 --topic kafkatest --from-beginning

这里指定topic是kafkatest。

6、启动flume配置

/opt/flume1.7/bin/flume-ng agent --conf /opt/flume1.7/conf/ --name a1 --conf-file /opt/flume1.7/job/kafka-flume-test01.conf -Dflume.root.logger=INFO,console

四、源代码地址

GitHub·地址

https://github.com/cicadasmile/big-data-parent

GitEE·地址

https://gitee.com/cicadasmile/big-data-parent

阅读标签

【Java基础】【设计模式】【结构与算法】【Linux系统】【数据库】

【分布式架构】【微服务】【大数据组件】【SpringBoot进阶】【Spring&Boot基础】

【数据分析】【技术导图】【职场】

数据采集组件：Flume基础用法和Kafka集成的更多相关文章

新闻实时分析系统-Flume+HBase+Kafka集成与开发
1.下载Flume源码并导入Idea开发工具 1)将apache-flume-1.7.0-src.tar.gz源码下载到本地解压 2)通过idea导入flume源码打开idea开发工具,选择File ...
新闻网大数据实时分析可视化系统项目——9、Flume+HBase+Kafka集成与开发
1.下载Flume源码并导入Idea开发工具 1)将apache-flume-1.7.0-src.tar.gz源码下载到本地解压 2)通过idea导入flume源码打开idea开发工具,选择File ...
kafka 基础知识梳理-kafka是一种高吞吐量的分布式发布订阅消息系统
一.kafka 简介今社会各种应用系统诸如商业.社交.搜索.浏览等像信息工厂一样不断的生产出各种信息,在大数据时代,我们面临如下几个挑战: 如何收集这些巨大的信息如何分析它如何及时做到如上两点 ...
【干货】.NET开发通用组件发布（三）简易数据采集组件
组件介绍和合作开发 http://www.cnblogs.com/MrHuo/p/MrHuoControls.html 简易数据采集组件怎么说他是一个简易的数据采集组件呢?因为由于时间仓促,缺少从某 ...
轻量jquery框架之--组件交互基础设计
概要组件交互基础,即考虑在JQUERY对象下($)下扩展所有组件都需要用到的通用api,如ajax入口.对表单的操作.html片段加载.通用的配合datagrid通用的curd客户端对象等. 扩展a ...
Vue.js-08：第八章 - 组件的基础知识
一.前言在之前的学习中,我们对于 Vue 的一些基础语法进行了简单的了解,通过之前的代码可以清晰的看出,我们在使用 Vue 的整个过程,最终都是在对 Vue 实例进行的一系列操作. 这里就会引出一个 ...
Kafka集成SparkStreaming
Spark Streaming + Kafka集成指南 Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用.请选择正确的包, ...
Spark Streaming和Kafka集成深入浅出
写在前面本文主要介绍Spark Streaming基本概念.kafka集成.Offset管理本文主要介绍Spark Streaming基本概念.kafka集成.Offset管理一.概述 Spar ...
Spark Streaming与Kafka集成
Spark Streaming与Kafka集成 1.介绍 kafka是一个发布订阅消息系统,具有分布式.分区化.多副本提交日志特点.kafka项目在0.8和0.10之间引入了一种新型消费者API,注意 ...

随机推荐

HDU 1564 Play a game && HDU 2147 kiki's game
HDU 1564 Play a game题意: 棋盘的大小是n*n.一块石头被放在一个角落的广场上.他们交替进行,8600人先走.每次,玩家可以将石头水平或垂直移动到一个未访问的邻居广场.谁不采取行动 ...
数学知识-欧拉函数&快速幂
欧拉函数定义对于正整数n,欧拉函数是小于或等于n的正整数中与n互质的数的数目,记作φ(n). 算法思路既然求解每个数的欧拉函数,都需要知道他的质因子,而不需要个数因此,我们只需求出他的质因子, ...
手把手教你通过SQL注入盗取数据库信息
目录数据库结构注入示例判断共有多少字段判断字段显示位置显示出登录用户和数据库名查看所有数据库获取对应数据库的表获取对应表的字段名称获取用户密码 SQL注入(SQL Injection ...
数位dp【模板 + 老年康复】
学习博客: 戳这里戳这里 "在信息学竞赛中,有这样一类问题:求给定区间中,满足给定条件的某个D 进制数或此类数的数量.所求的限定条件往往与数位有关,例如数位之和.指定数码个数.数的大小顺序 ...
np.random.randint()的返回值
返回的是数组而非int 比如返回x,y 为[1][2] 而非1,2 容易在只有一维一列时没有意识到其他函数的返回值也要注意
VS2010下如何查看类的内存布局
用VS2010查看类的内存布局,这里用两种方法 (1)MSVC有个隐藏的"/d1"开关,通过这个开关可以查看项目中类的内存布局情况. 修改项目属性,添加"/d1 repo ...
docker安装CentOS7及JNI使用相关过程记录
docker pull centos:centos7(拉取镜像) docker run -itd --name centos-test centos:centos7 (运行容器) docker exe ...
深入理解JavaScript垃圾回收
JavaScript中的垃圾回收是自动进行的,在平常开发中我们可能并不在意,但是深入理解JavaScript中的垃圾回收却是必要的; JavaScript 中主要的内存管理概念是可达性,简而言之就是 ...
Apple Support
Apple Support Send Files to Apple Support https://gigafiles.apple.com/#/customerupload refs 无法截屏 bug ...
KMP 算法 & 字符串查找算法
KMP算法 Knuth–Morris–Pratt algorithm 克努斯-莫里斯-普拉特算法 algorithm kmp_search: input: an array of character ...

数据采集组件：Flume基础用法和Kafka集成