带你看懂大数据采集引擎之Flume&采集目录中的日志

一、Flume的介绍：

Flume由Cloudera公司开发，是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于采集数据；同时，flume提供对数据进行简单处理，并写到各种数据接收方的能力，如果能用一句话概括Flume，那么Flume是实时采集日志的数据采集引擎。

二、Flume的体系结构：

Flume的体系结构分成三个部分：数据源、Flume、目的地

数据源种类有很多：可以来自directory、http、kafka等，flume提供了source组件用来采集数据源。

1、source作用：采集日志

source种类：1、spooling directory source：采集目录中的日志

2、htttp source：采集http中的日志

3、kafka source：采集kafka中的日志

……

采集到的日志需要进行缓存，flume提供了channel组件用来缓存数据。

2、channel作用：缓存日志

channel种类：1、memory channel：缓存到内存中（最常用）

2、JDBC channel：通过JDBC缓存到关系型数据库中

3、kafka channel：缓存到kafka中

……

缓存的数据最终需要进行保存，flume提供了sink组件用来保存数据。

3、sink作用：保存日志

sink种类：1、HDFS sink：保存到HDFS中

2、HBase sink：保存到HBase中

3、Hive sink：保存到Hive中

4、kafka sink：保存到kafka中

……

官网中有flume各个组件不同种类的列举：

三、安装和配置Flume：

1、安装：tar -zxvf apache-flume-1.7.0-bin.tar.gz -C ~/training

2、创建配置文件a4.conf：定义agent，定义source、channel、sink并组装起来，定义生成日志文件的条件。

以下是a4.conf配置文件中的内容，其中定义了数据源来自目录、数据缓存到内存中，数据最终保存到HDFS中，并且定义了生成日志文件的条件：日志文件大小达到128M或者经过60秒生成日志文件。

#定义agent名， source、channel、sink的名称

a4.sources = r1

a4.channels = c1

a4.sinks = k1

#具体定义source

a4.sources.r1.type = spooldir

a4.sources.r1.spoolDir = /root/training/logs

#具体定义channel

a4.channels.c1.type = memory

a4.channels.c1.capacity = 10000

a4.channels.c1.transactionCapacity = 100

#定义拦截器，为消息添加时间戳

a4.sources.r1.interceptors = i1

a4.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

#具体定义sink

a4.sinks.k1.type = hdfs

a4.sinks.k1.hdfs.path = hdfs://192.168.157.11:9000/flume/%Y%m%d

a4.sinks.k1.hdfs.filePrefix = events-

a4.sinks.k1.hdfs.fileType = DataStream

#不按照条数生成文件

a4.sinks.k1.hdfs.rollCount = 0

#HDFS上的文件达到128M时生成一个日志文件

a4.sinks.k1.hdfs.rollSize = 134217728

#HDFS上的文件达到60秒生成一个日志文件

a4.sinks.k1.hdfs.rollInterval = 60

#组装source、channel、sink

a4.sources.r1.channels = c1

a4.sinks.k1.channel = c1

四、使用Flume语句采集数据：

1、创建目录，用于保存日志：

mkdir /root/training/logs

2、启动Flume，准备实时采集日志：

bin/flume-ng.agent -n a4 -f myagent/a4.conf -c conf -Dflume.root.logger=INFO.console

3、将日志导入到目录中：

cp * ~/training/logs

五、Sqoop和Flume的相同点和不同点：

相同点：sqoop和flume只有一种安装模式，不存在本地模式、集群模式等。

不同点：sqoop批量采集数据，flume实时采集数据。

作者：李金泽AllenLi，清华大学硕士研究生，研究方向：大数据和人工智能

带你看懂大数据采集引擎之Flume&采集目录中的日志的更多相关文章

详解大数据采集引擎之Sqoop&采集oracle数据库中的数据
一.Sqoop的简介: Sqoop是一个数据采集引擎/数据交换引擎,采集关系型数据库(RDBMS)中的数据,主要用于在RDBMS与HDFS/Hive/HBase之间进行数据传递,可以通过sqoop i ...
【全干货】5 分钟带你看懂 Docker ！
欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~ 作者丨唐文广:腾讯工程师,负责无线研发部地图测试. 导语:Docker,近两年才流行起来的超轻量级虚拟机,它可以让你轻松完成持续集成.自动交付 ...
一文看懂大数据的技术生态圈，Hadoop，hive，spark都有了
一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...
《开源大数据分析引擎Impala实战》目录
当当网图书信息: http://product.dangdang.com/23648533.html <开源大数据分析引擎Impala实战>目录第1章 Impala概述.安装与配置.. ...
一文带你彻底了解大数据处理引擎Flink内存管理
摘要: Flink是jvm之上的大数据处理引擎. Flink是jvm之上的大数据处理引擎,jvm存在java对象存储密度低.full gc时消耗性能,gc存在stw的问题,同时omm时会影响稳定性.同 ...
从源码带你看懂functools的partial方法
1.what? partial是什么, partial也叫偏函数.源码的描述是: 部分应用给定参数和关键字的新函数. New function with partial application of ...
从基础到实践，一文带你看懂HashMap
摘要:HashMap是一个用于存储Key-Value键值对的集合,它是面试中经常问到的一个知识点. HashMap是面试中经常问到的一个知识点,也是判断一个候选人基础是否扎实的标准之一,因为通过Has ...
图文带你看懂JavaScritpt引擎V8与JS执行过程
浏览器原理浏览器内核与js引擎浏览器内核又称"排版引擎","渲染引擎","浏览器引擎",叫法很多,简单来说干的活就是将代码(HTML,X ...
一文教你看懂大数据的技术生态圈:Hadoop,hive,spark
转自:https://www.cnblogs.com/reed/p/7730360.html 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞 ...

随机推荐

Cobalt Strike 学习
前言本文以一个模拟的域环境为例对 Cobalt Strike 的使用实践一波. 环境拓扑图如下: 攻击者(kali) 位于 192.168.245.0/24 网段,域环境位于 192.168.31. ...
在sublime text 3中让.vue文件的内容变成彩色
直接上步骤: 1.按住ctrl + shift + p 2.输入install Package 3.输入Vue Syntax Highlight 执行完以上3步,再次打开.vue文件,会发现里面的内容 ...
Nodejs编译Native Code：使用C++构建工具npm
Nodejs的很多NPM包需要本地编译,通常是C++写的代码,例如图像处理模块等. 这是如果生产环境没有安装Visual Studio 2015等开发工具,通常会编译失败,发现了一个npm专门干这事儿 ...
Android中的设计模式之观察者模式
参考 <设计模式:可复用面向对象软件的基础 >5.7 Observer 观察者对象行为型模式 <设计模式解析> 18.4 Observer模式 <Android源码设计 ...
Ubuntu 安装hive + mysql
先安装mysql sudo apt-get update sudo apt-get install mysql-server sudo mysql_secure_installation具体详情请另查 ...
[CentOS7] [VMWARE] 增加磁盘空间后扩大逻辑分区
Learn to rescan disk in Linux VM when its backed vdisk in vmware is extended. This method does not r ...
转：在网站开发中很有用的8个 jQuery 效果【附源码】
原文地址:http://www.cnblogs.com/lhb25/p/amazing-jquery-effects.html jQuery 作为最优秀 JavaScript 库之一,改变了很多人编写 ...
ln 硬链接介绍
硬链接:在linux文件系统中多个文件名指向同一个索引节点(Inode)是正常允许的.硬链接文件就相当于文件的另一个入口. 硬链接的作用:允许一个文件拥有多个有效路径(多个入口),这样用户就可以建立硬 ...
SAP业务蓝图设计的一些想法
SAP蓝图设计是面向业务流程的,目前国内很多软件公司在做蓝图设计(概要设计)都是面向功能的,而对于用户来说,需要的不是一个个功能点,而是要实现具体的业务.功能点是一个点,而业务流程是一条线.是在梳理业 ...
SNMP协议利用
1.安装snmp服务 2.配置snmp服务运行Services.msc 添加社区public,只读启动服务 3.在kali运行 Snmpwalk -c public -v 2c IP 即可查看目标 ...

带你看懂大数据采集引擎之Flume&采集目录中的日志

带你看懂大数据采集引擎之Flume&采集目录中的日志的更多相关文章

随机推荐

热门专题