Flume介绍

一、Flume架构图

含义
Source 规定收集数据的来源
Channel 相当于一个管道,连接source和sink
Sink flume agent收集到数据后,数据写到哪里
 
使用Flume,就是定义好source,channel, sink, 它负责监控Linux文件系统,并将文件写入HDFS中
 

二、多个Flume整合

注意启动顺序!!!
    先启动node2,后启动node1(先启动后面的Flume2, 在启动前面的Flume1)
Nginx集群,每一个Nginx对应多个web server,再每一个web server安装Flume1,Flume2,Flume3...然后各个Flume交给总的Flume Agent,写入到HDFS中

三、Flume中Source, Channel, Sink的类型

 
 
    Flume Source
Source类型              | 说明
Avro Source            | 支持Avro协议(实际上是Avro RPC),内置支持
Thrift Source          | 支持Thrift协议,内置支持
Exec Source            | 基于Unix的command在标准输出上生产数据,监控文件的变化
JMS Source              | 从JMS系统(消息、主题)中读取数据
Spooling Directory Source | 监控指定目录内数据变更,监控目录的变化
Twitter 1% firehose Source|通过API持续下载Twitter数据,试验性质
Netcat Source          | 监控某个端口,将流经端口的每一个文本行数据作为Event输入
Sequence Generator Source | 序列生成器数据源,生产序列数据
Syslog Sources          | 读取syslog数据,产生Event,支持UDP和TCP两种协议
HTTP Source            | 基于HTTP POST或GET方式的数据源,支持JSON、BLOB表示形式
Legacy Sources          | 兼容老的Flume OG中Source(0.9.x版本)
 
    Flume Channel
Channel类型  说明
Memory Channel           | Event数据存储在内存中
JDBC Channel             | Event数据存储在持久化存储中,当前Flume Channel内置支持Derby
File Channel             | Event数据存储在磁盘文件中
Spillable Memory Channel   | Event数据存储在内存中和磁盘上,当内存队列满了,会持久化到磁盘文件
Pseudo Transaction Channel | 测试用途
Custom Channel           | 自定义Channel实现
 
    Flume Sink
Sink类型 说明
HDFS Sink        | 数据写入HDFS
Logger Sink      | 数据写入日志文件
Avro Sink        | 数据被转换成Avro Event,然后发送到配置的RPC端口上
Thrift Sink      | 数据被转换成Thrift Event,然后发送到配置的RPC端口上
IRC Sink          | 数据在IRC上进行回放
File Roll Sink    | 存储数据到本地文件系统
Null Sink        | 丢弃到所有数据
HBase Sink        | 数据写入HBase数据库
Morphline Solr Sink | 数据发送到Solr搜索服务器(集群)
ElasticSearch Sink | 数据发送到Elastic Search搜索服务器(集群)
Kite Dataset Sink | 写数据到Kite Dataset,试验性质的
Custom Sink      | 自定义Sink实现
 
 

Flume介绍的更多相关文章

  1. Flume介绍与安装

    搭建环境 部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放 Hadoop等组件运行包.因为该目录用于安装hadoo ...

  2. flume介绍与原理(一)

    1 .背景 flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一.尤其近几年随着flume的不断被完善以及升级版本 ...

  3. 整体认识flume:Flume介绍、分布式安装、常见问题及解决方案

    问题导读 1.什么是flume? 2.flume包含哪些组件? 3.Flume在读取utf-8格式的文件时会出现解析不了时间戳,该如何解决? Flume是一个分布式.可靠.和高可用的海量日志采集.聚合 ...

  4. flume介绍及应用

    版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142667 flume的概念 1.   ...

  5. Flume介绍安装使用

    APache Flume官网:http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#memory-channel 目录 ...

  6. flume介绍以及环境的部署

    收集.聚合时间流数据分布式框架.通常用户log数据 采用ad-hoc方案,明显有点如下: 可靠的.可伸缩.可管理.可定制.高性能 声名式配置,可以动态配置 提供上下文路由功能 支持负载均衡和故障转移 ...

  7. 分布式日志收集系统- Cloudera Flume 介绍

        Flume是Cloudera提供的日志收集系统,具有分布式.高可靠.高可用性等特点,对海量日志采集.聚合和传输, Flume支持在日志系统中定制各类数据发送方, 同时,Flume提供对数据进行 ...

  8. 具体说明 Flume介绍、安装和配置

    社论: 本文总结"Hadoop生态系统"中的当中一员--Apache Flume 写在前面二: 所用软件说明: 一.什么是Apache Flume 官网:Flume is a di ...

  9. 具体图解 Flume介绍、安装配置

    写在前面一: 本文总结"Hadoop生态系统"中的当中一员--Apache Flume 写在前面二: 所用软件说明: 一.什么是Apache Flume 官网:Flume is a ...

随机推荐

  1. Java_Date_01_判断两个时间相差的天数

    二.参考资料 1.java 判断两个时间相差的天数 2.java计算两个日期之间相差天数和相隔天数详解

  2. inux_异常_07_ftp查看不到文件列表

    二.参考资料 1.Linux关于ftp查看不到文件列表的问题

  3. K:java中序列化的两种方式—Serializable或Externalizable

    在java中,对一个对象进行序列化操作,其有如下两种方式: 第一种: 通过实现java.io.Serializable接口,该接口是一个标志接口,其没有任何抽象方法需要进行重写,实现了Serializ ...

  4. 转载:DNS解析过程详解

    2015-09-20 此好文是转载,如有侵权联系我,立马删掉 DNS的几个基本概念: 一. 根域 就是所谓的“.”,其实我们的网址www.baidu.com在配置当中应该是www.baidu.com. ...

  5. 每天学一点Docker(6)——镜像和DockerFile

    镜像的分层结构: 实际上,Docker Hub 中 99% 的镜像都是通过在 base 镜像中安装和配置需要的软件构建出来的.比如我们现在构建一个新的镜像,Dockerfile 如下: ① 新镜像不再 ...

  6. mac pycharm快捷键整理

    转自:http://www.jianshu.com/p/be0bdc02f7da (感谢整理,另外,简书似乎很不错,排版很nice.) Pycharm 快捷键 shift cmd + 展开所有 shi ...

  7. linux socket编程:简易客户端与服务端

    什么是socket? socket起源于Unix,而Unix/Linux基本哲学之一就是“一切皆文件”,都可以用“打开open –> 读写write/read –> 关闭close”模式来 ...

  8. 解决ios微信页面回退不刷新的问题

    在回退后需要刷新的页面加以下js $(function () {   var isPageHide = false;   window.addEventListener('pageshow', fun ...

  9. 关于centos启动报错:Failed to start Crash recovery kernel arming的解决方案

    在VMware中安装了centos,重启时报错:Failed to start Crash recovery kernel arming 本质是kdump服务启动失败 先来说一下,什么是kdump K ...

  10. MYSQL数据库表按月备份,滚动,保留6次备份

    要求: 每月1日0点:在不影响业务的情况下,备份整月的数据,保留6次备份. 思路: 基于MYSQL事件功能,每月按时完成操作 RENAME语句具有原子性,新旧表无缝切换 RENAME语句仅修改表定义, ...