flume组件汇总 source、sink、channel

Flume Source

Source类型	说明
Avro Source	支持Avro协议（实际上是Avro RPC），内置支持
Thrift Source	支持Thrift协议，内置支持
Exec Source	基于Unix的command在标准输出上生产数据
JMS Source	从JMS系统（消息、主题）中读取数据，ActiveMQ已经测试过
Spooling Directory Source	监控指定目录内数据变更
Twitter 1% firehose Source	通过API持续下载Twitter数据，试验性质
Netcat Source	监控某个端口，将流经端口的每一个文本行数据作为Event输入
Sequence Generator Source	序列生成器数据源，生产序列数据
Syslog Sources syslogtcp multiport_syslogtcp syslogudp	读取syslog数据，产生Event，支持UDP和TCP两种协议
HTTP Source	基于HTTP POST或GET方式的数据源，支持JSON、BLOB表示形式
Legacy Sources	兼容老的Flume OG中Source（0.9.x版本）
Avro Legacy Source
Thrift Legacy Source
Scribe Source
Custom Source	自定义Source

Flume Sink

Sink类型	说明
HDFS Sink	数据写入HDFS
Logger Sink	数据写入日志文件
Avro Sink	数据被转换成Avro Event，然后发送到配置的RPC端口上
Thrift Sink	数据被转换成Thrift Event，然后发送到配置的RPC端口上
IRC Sink	数据在IRC上进行回放
File Roll Sink	存储数据到本地文件系统
Null Sink	丢弃到所有数据
HBase Sink	数据写入HBase数据库
Morphline Solr Sink	数据发送到Solr搜索服务器（集群）
ElasticSearch Sink	数据发送到Elastic Search搜索服务器（集群）
Kite Dataset Sink	写数据到Kite Dataset，试验性质的
Custom Sink	自定义Sink实现

Flume Channel

Channel类型	说明
Memory Channel	Event数据存储在内存中
JDBC Channel	Event数据存储在持久化存储中，当前Flume Channel内置支持Derby
File Channel	Event数据存储在磁盘文件中
Spillable Memory Channel	Event数据存储在内存中和磁盘上，当内存队列满了，会持久化到磁盘文件（当前试验性的，不建议生产环境使用）
Pseudo Transaction Channel	测试用途
Custom Channel	自定义Channel实现

Channel Selector

Sink Processor

Event Serializer

Event Deserializers

在source组件上指定，反序列化，将输入（文件、流）解析成event的方式，

Deserializer类型	说明
LINE	默认值，将文本输入的每行转换成一个event
AVRO	读取avro文件，将其中的每条avro记录转换成一个event，每个event都附带着模式信息
BlobDeserializer	将整个二进制大数据转换成一个evnt，通常一个BLOB就是一个文件，比如PDF、JPG

比如：

1 2	`a1.sources=s1` `a1.sources.s1.deserializer=LINE`

注意：

LINE有个设置每行字符个数的属性：deserializer.maxLineLength，默认是2048，大于这个字符数的行将被截断。

BlobDeserializer有个设置文件大小的属性：deserializer.maxBlobLength默认是100000000（大约95M），大于这个值的文件将被拆分成多个文件。

Event Serializers

在sink组将上指定，序列化，将event对象转换成文件的方式。

Serializer类型	说明
TEXT（Body Text Serializer）	默认值，将event中body里的数据不做改变的转换成输出流，event的header将被忽略
AVRO_EVENT（Avro Event Serializer）	将event转换成avro文件
BlobDeserializer	将整个二进制大数据转换成一个evnt，通常一个BLOB就是一个文件，比如PDF、JPG

Interceptor

拦截器可以修改或删除event。

拦截器可以组成拦截器链，中间用空格分隔，拦截器的配置顺序即是它们的执行顺序。

Handler类型	说明
Timestamp Interceptor	向event header中添加了timestamp变量，值是时间戳
Host Interceptor	向event header中添加了host变量，可以通%{host}引用（比如在HDFS sink中的路径占位符）
Static Interceptor	配置一个静态的值到event header里，多个静态值需要配多个static interceptor
UUID Interceptor	向event header里添加变量id，值是随机生成的uuid，可以用这个唯一标识一个event
Morphline Interceptor	使用morphline配置文件过滤event。
Regex Filtering Interceptor	使用正则表达式过滤（include或exclude）event。
Regex Extractor Interceptor	使用正则表达式来向header中添加key、value。

配置实例：

a1.sources=s1

...

a1.sources.s1.interceptors=i1 i2

a1.sources.s1.interceptors.i1.type=host

a1.sources.s1.interceptors.i1.hostHeader=host

a1.sources.s1.interceptors.i2.type=timestamp

type可以是全限定类名或者是别名

来自为知笔记(Wiz)

flume组件汇总 source、sink、channel的更多相关文章

Flume组件汇总2
Component Interface Type Alias Implementation Class org.apache.flume.Channel memory org.apache.flume ...
Flume组件
1.什么是Flume:apache顶级项目,主要用来做数据采集.分布式.高可用,将海量日志进行采集.聚合.传输的系统.能够对数据进行简单处理在发送到接收方. 2.Flume组件:source.chan ...
Flume NG中的Kafka Channel
kafka(官网地址:http://kafka.apache.org)是一款分布式消息发布和订阅的系统在Flume中的KafkaChannel支持Flume与Kafka整合,可以将Kafka当做ch ...
Hadoop生态圈-Flume的组件之自定义Sink
Hadoop生态圈-Flume的组件之自定义Sink 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要介绍sink相关的API使用两个小案例,想要了解更多关于API的小技 ...
Hadoop生态圈-Flume的主流source源配置
Hadoop生态圈-Flume的主流source源配置作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客只是配置的是Flume主流的Source,想要了解更详细的配置信息请参 ...
Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算
目标:Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算 1.flume的配置,配置spoolDirSource_hdfsSink.pro ...
【Hadoop】10、Flume组件
目录 Flume组件安装配置 1.下载和解压 Flume 2.Flume 组件部署 3.使用 Flume 发送和接受信息 Flume组件安装配置 1.下载和解压 Flume # 传Flume安装包 [ ...
Flume 组件安装配置
下载和解压 Flume 实验环境可能需要回至第四,五,六章(hadoop和hive),否则后面传输数据可能报错(猜测)! 可以从官网下载 Flume 组件安装包 , 下载地址 ...
泛函编程（36）－泛函Stream IO：IO数据源－IO Source & Sink
上期我们讨论了IO处理过程:Process[I,O].我们说Process就像电视信号盒子一样有输入端和输出端两头.Process之间可以用一个Process的输出端与另一个Process的输入端连接 ...

随机推荐

OpenCL科普及在ubuntu 16.04 LTS上的安装
OpenCL(Open Computing Language,开放计算语言)是一个为异构平台编写程序的框架,此异构平台可由CPU.GPU.DSP.FPGA或其他类型的处理器與硬體加速器所组成.Open ...
Spring Boot Runner启动器
Runner启动器如果你想在Spring Boot启动的时候运行一些特定的代码,你可以实现接口ApplicationRunner或者CommandLineRunner,这两个接口实现方式一样,它们都 ...
Java 9 被无情抛弃，Java 8 直接升级到 Java 10！！
前几天写了一篇 Java 8 即将在 2019 年停止免费向企业提供更新的文章,企图迫使用户向更新一代的 Java 版本升级,但让人遗憾的是,小编今天收到了 Oracle Java 版本的升级推送,装 ...
RawConfigParser 与 ConfigParser ——Python的配件文件读取模块
一般情况都是使用ConfigParser这个方法,但是当我们配置中有%(filename)s这种格式的配置的时候,可能会出现以下问题: configparser.InterpolationMissin ...
python unittest单元测试
unittest单元测试框架:包含测试用例编写.测试收集\测试用例加载.执行测试用例.生成测试用例报告,同时,更提供了添加断言,异常处理等. 第一:创建测试类,创建测试用例第二:收集测试用例,加载测 ...
利用history.pushState()实现页面无刷新更新
本来是在研究vue-router如何记录滚动位置,点返回的时候还是回到原来的位置,看到有人说的history.state存了一个值,才把history研究一下,发现 history.pushState ...
mongodb 语句和SQL语句对应（SQL to Aggregation Mapping Chart）
SQL to Aggregation Mapping Chart https://docs.mongodb.com/manual/reference/sql-aggregation-compariso ...
音频标签化1：audioset与训练模型 | 音频特征样本
随着机器学习的发展,很多"历史遗留"问题有了新的解决方案.这些遗留问题中,有一个是音频标签化,即如何智能地给一段音频打上标签的问题,标签包括"吉他"." ...
Animate.css(一款有意思的CSS3动画库)
官网:https://daneden.github.io/animate.css/ animate.css 是一款跨浏览器的动画库. 使用方式: 在页面的 <head>中引入样式文件: & ...
[SDOI2010] 外星千足虫
Description 公元2089年6月4日,在经历了17年零3个月的漫长旅行后,"格纳格鲁一号"载人火箭返回舱终于安全着陆.此枚火箭由美国国家航空航天局(NASA)研制发射,行 ...

flume组件汇总 source、sink、channel

flume组件汇总 source、sink、channel的更多相关文章

随机推荐

热门专题