数据采集工具flume
概述
flume是在2011年被首次引入到Cloudera的CDH3分发中,2011年6月,Cloudera将flume项目捐献给Apache基金会。2012年,flume项目从孵化器变成了顶级项目,在孵化的这一年中,开发人员就已经开始基于Star Trek Themed标签对flume进行重构,并创建了flume-NG(Flume the next Generation)。
Apache的flume-NG是一个分布式的,可靠的,和可用的系统。能有效地收集,汇总和移动大量的从许多不同的来源,一个集中式数据存储日志数据。
Apache的flume的使用不仅限于日志数据聚集。由于数据来源是可定制的,flume可以用来大量事件(每一行数据被当做一个event)数据包括但不限
于传输网络数据,社交媒体产生的数据,电子邮件和几乎任何数据源的可能。
Apache的flume-NG是Apache软件基金会的顶级项目,目前有两个版本的代码,版本0.9.x和1.x。1.x是全新的架构,该版本重新改进了的性能和配置
的灵活性,鼓励用户使用。
系统要求
1、Java:Java 1.6或更高版本(推荐使用Java 1.7);
2、内存:配置使用sources、channels、sinks时需要有足够的内存;
3、磁盘空间:配置使用channels、sinks时需要有足够的磁盘空间;
4、目录权限:使用agent时需要拥有目录的读写权限;
数据流模型
flume事件被定义为数据流中一个有效字节和一个可选的字符串属性设置。flume是(JVM)进程中,主机部件通过事件流从外部源的下一个目的地(跳)。
flume源消耗像Web服务器的外部源传递到事件。外部源发出的事件在一个由目标识别的格式flumeflume源。例如,一个公司的flume源可用于从公司客户或其他flume代理发送事件从一个公司的汇流接收Avro事件。类似的流程可以定义使用节俭flume源接收事件从水池或flume节俭节俭RPC客户端或节俭写在从flume节俭的协议而产生的任何语言的客户。当flume源接收事件,就将它保存为一个或多个通道。通道是一个被动的存储,使事件直到它的flumeflume消耗。文件的渠道就是一个例子–通过本地文件系统支持。flume中移除事件从通道和把它变成像HDFS外部储存库(通过flumeHDFS库)或转发到下一个flume,flume源代理(下一跳)在流动。在给定的源和汇的代理异步运行在频道上演的事件。
复杂流动
flume允许用户在事件流中建立多个agent。它允许到达目的地时支持扇入和扇出,上下文路由和备份路由,跳过失败。
数据采集工具flume的更多相关文章
- 【性能测试】服务器性能监控、数据采集工具nmon安装使用详解
nmon nmon是一种在AIX与各种Linux操作系统上广泛使用的监控与分析工具,它能在系统运行过程中实时地捕捉系统资源的使用情况,并且能输出结果到文件中,然后通过nmon_analyzer工具产生 ...
- 【Flume】数据采集引擎Flume
一.概述 flume是一个高效的.可靠的.可用的分布式海量日志数据收集.聚合.传输的工具. Flume is a distributed, reliable, and available servic ...
- ETL工具 Flume (一)
分布式日志采集系统Flume学习 一.Flume架构 1.1 Hadoop业务开发流程 1.2 Flume概述 flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. 支持在日志系统 ...
- 数据采集工具Telegraf:简介及安装
接着上一篇博客:InfluxDB简介及安装,这篇博客介绍下Linux环境下Telegraf安装以及其功能特点... 官网地址:influxdata 官方文档:telegraf文档 环境:CentOS7 ...
- Spark的Streaming + Flume进行数据采集(flume主动推送或者Spark Stream主动拉取)
1.针对国外的开源技术,还是学会看国外的英文说明来的直接,迅速,这里简单贴一下如何看: 2.进入到flume的conf目录,创建一个flume-spark-push.sh的文件: [hadoop@sl ...
- 自己动手制作的淘宝闲鱼APP宝贝数据采集工具软件
之前做过淘宝PC端宝贝和店铺数据的采集,后来需要做APP端的数据采集,因为没有学过Android,以前也都是做PC端的软件,有没有其他方法呢? 突然想到了用手机模拟器,可以在电脑端控制运行手机APP端 ...
- 日志采集工具Flume的安装与使用方法
安装Flume,参考厦门大学林子雨教程:http://dblab.xmu.edu.cn/blog/1102/ 并完成案例1 1.案例1:Avro source Avro可以发送一个给定的文件给Flum ...
- flume+kafka+smart数据接入实施手册
1. 概述 本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1. 整体方案 Flume作为日志收集工具,监控一个文件目录或者一 ...
- 本地日志数据实时接入到hadoop集群的数据接入方案
1. 概述 本手册主要介绍了,一个将传统数据接入到Hadoop集群的数据接入方案和实施方法.供数据接入和集群运维人员参考. 1.1. 整体方案 Flume作为日志收集工具,监控一个文件目录或者一个文 ...
随机推荐
- 非对称加密算法RSA--转
RSA 这种算法1978年就出现了,它是第一个既能用于数据加密也能用于数字签名的算法.它易于理解和操作,也很流行.算法的名字以发明者的名字命名:Ron Rivest, AdiShamir 和L ...
- C#获取窗口,模拟按键操作
C#获取窗口,模拟按键操作,实现计算器模拟操作.首先引用. using System.Runtime.InteropServices; 使用DllImport引入两个函数: // Get a hand ...
- NYOJ-744蚂蚁的难题(一)
这个题都说是水题,楞是没做出来,看了好多题解,感觉这个规律没看懂,后来在讨论区看到了一个题解,感觉有点懂了,写一下自己的理解 首先要明白异或的意思,简单一句话: 同0异1,既然这样,让求区间a,b 中 ...
- gitHub项目框架使用排名
项目名称 项目简介 使用心得 1. react-native 这 个是 Facebook 在 React ...
- MSSQL 简单练习回顾
这段时间,报了浦软培训的.NET,现在整理回顾下,算是个小小总结吧 为了便于操作,我没有在多个数据库间切换数据库实例,以一个总的数据库实例 test_demo为源进行的相关操作,代码的注释根据我的理解 ...
- 关于——NSThread
创建.启动线程 NSThread *thread = [[NSThread alloc] initWithTarget:self selector:@selector(run) object:nil] ...
- Java前端Rsa公钥加密,后端Rsa私钥解密(目前还不支持中文加密解密,其他都行)
Base64工具类,可以让rsa编码的乱码变成一串字符序列 package com.utils; import java.io.ByteArrayInputStream; import java.io ...
- JAVA-6-简单的模拟ATM使用
public static void main(String[] args) { in = new Scanner(System.in); int count = 1; int pwd = 11111 ...
- C++ 约瑟夫环
约瑟夫环: 已知n个人(以编号1,2,3...n分别表示)围坐在一张圆桌周围.从编号为k的人开始报数,数到m的那个人出列:他的下一个人又从1开始报数,数到m的那个人又出列:依此规律重复下去,直到圆桌周 ...
- rpc和websocket的区别
虽然很久以前用过rpc但是当时没用过websocket,也没做过对比,现在就对比一下 rpc的用法是客户端直接调用服务端的函数,其实他就是把数据传给服务端,服务端处理完以后返回给客户端, websoc ...