数据采集工具flume
概述
flume是在2011年被首次引入到Cloudera的CDH3分发中,2011年6月,Cloudera将flume项目捐献给Apache基金会。2012年,flume项目从孵化器变成了顶级项目,在孵化的这一年中,开发人员就已经开始基于Star Trek Themed标签对flume进行重构,并创建了flume-NG(Flume the next Generation)。
Apache的flume-NG是一个分布式的,可靠的,和可用的系统。能有效地收集,汇总和移动大量的从许多不同的来源,一个集中式数据存储日志数据。
Apache的flume的使用不仅限于日志数据聚集。由于数据来源是可定制的,flume可以用来大量事件(每一行数据被当做一个event)数据包括但不限
于传输网络数据,社交媒体产生的数据,电子邮件和几乎任何数据源的可能。
Apache的flume-NG是Apache软件基金会的顶级项目,目前有两个版本的代码,版本0.9.x和1.x。1.x是全新的架构,该版本重新改进了的性能和配置
的灵活性,鼓励用户使用。
系统要求
1、Java:Java 1.6或更高版本(推荐使用Java 1.7);
2、内存:配置使用sources、channels、sinks时需要有足够的内存;
3、磁盘空间:配置使用channels、sinks时需要有足够的磁盘空间;
4、目录权限:使用agent时需要拥有目录的读写权限;
数据流模型
flume事件被定义为数据流中一个有效字节和一个可选的字符串属性设置。flume是(JVM)进程中,主机部件通过事件流从外部源的下一个目的地(跳)。
flume源消耗像Web服务器的外部源传递到事件。外部源发出的事件在一个由目标识别的格式flumeflume源。例如,一个公司的flume源可用于从公司客户或其他flume代理发送事件从一个公司的汇流接收Avro事件。类似的流程可以定义使用节俭flume源接收事件从水池或flume节俭节俭RPC客户端或节俭写在从flume节俭的协议而产生的任何语言的客户。当flume源接收事件,就将它保存为一个或多个通道。通道是一个被动的存储,使事件直到它的flumeflume消耗。文件的渠道就是一个例子–通过本地文件系统支持。flume中移除事件从通道和把它变成像HDFS外部储存库(通过flumeHDFS库)或转发到下一个flume,flume源代理(下一跳)在流动。在给定的源和汇的代理异步运行在频道上演的事件。
复杂流动
flume允许用户在事件流中建立多个agent。它允许到达目的地时支持扇入和扇出,上下文路由和备份路由,跳过失败。
数据采集工具flume的更多相关文章
- 【性能测试】服务器性能监控、数据采集工具nmon安装使用详解
nmon nmon是一种在AIX与各种Linux操作系统上广泛使用的监控与分析工具,它能在系统运行过程中实时地捕捉系统资源的使用情况,并且能输出结果到文件中,然后通过nmon_analyzer工具产生 ...
- 【Flume】数据采集引擎Flume
一.概述 flume是一个高效的.可靠的.可用的分布式海量日志数据收集.聚合.传输的工具. Flume is a distributed, reliable, and available servic ...
- ETL工具 Flume (一)
分布式日志采集系统Flume学习 一.Flume架构 1.1 Hadoop业务开发流程 1.2 Flume概述 flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. 支持在日志系统 ...
- 数据采集工具Telegraf:简介及安装
接着上一篇博客:InfluxDB简介及安装,这篇博客介绍下Linux环境下Telegraf安装以及其功能特点... 官网地址:influxdata 官方文档:telegraf文档 环境:CentOS7 ...
- Spark的Streaming + Flume进行数据采集(flume主动推送或者Spark Stream主动拉取)
1.针对国外的开源技术,还是学会看国外的英文说明来的直接,迅速,这里简单贴一下如何看: 2.进入到flume的conf目录,创建一个flume-spark-push.sh的文件: [hadoop@sl ...
- 自己动手制作的淘宝闲鱼APP宝贝数据采集工具软件
之前做过淘宝PC端宝贝和店铺数据的采集,后来需要做APP端的数据采集,因为没有学过Android,以前也都是做PC端的软件,有没有其他方法呢? 突然想到了用手机模拟器,可以在电脑端控制运行手机APP端 ...
- 日志采集工具Flume的安装与使用方法
安装Flume,参考厦门大学林子雨教程:http://dblab.xmu.edu.cn/blog/1102/ 并完成案例1 1.案例1:Avro source Avro可以发送一个给定的文件给Flum ...
- flume+kafka+smart数据接入实施手册
1. 概述 本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1. 整体方案 Flume作为日志收集工具,监控一个文件目录或者一 ...
- 本地日志数据实时接入到hadoop集群的数据接入方案
1. 概述 本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1. 整体方案 Flume作为日志收集工具,监控一个文件目录或者一个文 ...
随机推荐
- android studio 的部分设置
1.android studio 如何提示方法的用法 在 Eclipse中鼠标放上去就可以提示方法的用法,实际上Android Studio也可以设置的.如图 Preferences > Edi ...
- nginx 2.基本配置
死磕nginx 2.基本配置 鉴于深入浅出的原理,我们先从一个简单的配置了解nginx的配置 1.一个典型配置 nginx的配置文件默认在nginx安装目录的conf二级目录下面,主配置文件为 ngi ...
- java集合框架02
public class ListTest { public static void main(String[] args) { //创建几个新闻对象 News news1=new News(1, & ...
- nyoj 17
// nyoj 17 代码如上,用的是dp,总的来说就是对一个字符串 从末尾开始比较,设定一个数组,存放每个单调字串的最大长度,最后比较... //要注意的就是里面if语句对于每次字符比 ...
- C#获取磁盘列表与信息
方法1:使用Environment //获取当前计算机逻辑磁盘名称列表 String[] drives = Environment.GetLogicalDrives(); Console.WriteL ...
- Dragger简介
转自:http://www.apkbus.com/blog-705730-60435.html 什么是依赖注入 如果我们想要注入依赖,首先要理解依赖是什么.简单的说,依赖是我们代码中两个模块之间的耦合 ...
- a标签增加onclick事件提示未定义function
项目使用的是ext框架,版本是ext4.2 出现的问题代码如下: renderer : function(value){ var html = "<a href=\"java ...
- ecshop模板如何修改详细图解
ecshop模板如何修改?很多人在问这个问题,今天就以图解的方式给大家详细说下.相信学完之后,你会很清楚如何修改ecshop模板,不管你是初学者还是程序高手. 1, ecshop的模板结构 ecsho ...
- 趣味PAT--循环-19. 币值转换(20)
One visible minute on the stage is attributed to ten years of invisible practice off the stage. &quo ...
- 1.2 Coin 项目
自2009年起,Coin便是Java 7(和Java 8)中一个开源的子项目.创建Coin项目是为了反映Java语言中的微小变动: 修改Java语言,按不同的修改方式及其复杂度依次分为:类库.工具提供 ...