Flume 常用配置项

注：以下配置项均为常见配置项，查询详细配置项可以访问 flume 官网

Source 常见配置项

Avro Source

配置项名称	默认值	描述
Channel	–
type	–	组件类型名称，必须为`avro`
bind	–	要监听的主机名或IP地址
port	–	要绑定的端口号
threads	–	产生的最大工作线程数
ipFilterRules	–	使用此配置定义N个netty ipFilter模式规则。

Thrift Source

配置项名称	默认值	描述
Channel	–
type	–	组件类型名称，必须为`Thrift`
bind	–	要监听的主机名或IP地址
port	–	要绑定的端口号
threads	–	产生的最大工作线程数
ipFilterRules	–	使用此配置定义N个netty ipFilter模式规则。

Exec Source

配置项名称	默认值	描述
Channel	–
type	–	组件名称，必须为 `exec`
command	–	需要执行的指令
restartThrottle	10000	重启之前需要等待的时间(10秒)
restart	false	cmd挂掉是否应该自动重启
batchSize	20	每次可以读取的行数
batchTimeout	3000	这批数据必须处理完的时间

Kafka Source

配置项名称	默认值	描述
channels	–
type	–	组件名称，必须为`org.apache.flume.source.kafka,KafkaSource`
zookeeperConnect	–	Zookeeper的地址
groupId	flume	consumer group的唯一标识，在多个source或多个agent中设置相同的ID表示它们属于同一个consumer group
topic	–	Kafka的Topic，只能是一个
batchSize	1000	一个批次中最大能取到的消息数

Netcat Source

配置项名称	默认值	描述
channels	–
type	–	组件名称，必须为 `netcat`
bind	–	需要绑定的主机
port	–	需要绑定的端口号
max-line-length	512	每条消息的最大字节数
ack-every-event	true	为每条成功接收的消息回复'OK'

Sequence Generator Source

配置项名称	默认值	描述
channels	–
type	–	组件名称，必须为 `seq`

Http Source

配置项名称	默认值	描述
type		组件名称，必须为`http`
port	–	需要绑定的端口
bind	0.0.0.0	需要监听的地址
handler	`org.apache.flume.source.http.JSONHandler`	handler类的完整名称
handler.*	–	handler的参数

Custom Source

配置项名称	默认	描述
channels	–
type	–	组件名称，为用户自定义的完整类名称

Channels 常用配置项

Memory Channel

配置项名称	默认值	描述
type	–	组件名称，必须为 `memory`
capacity	100	channel最大能存储的event数量
transactionCapacity	100	每次事务中能从source中拉取或下沉到sink的最大event数量
keep-alive	3	添加
byteCapacityBufferPercentage	20	定义byteCapacityBuffer 的占比，它与 byteCapacity之和为100%，byteCapacity见下栏
byteCapacity		在这个channel中允许存放的最大字节数这个字节数只计算event body,这也是需要提供 byteCapacityBufferPercentage 配置参数的原因。默认为JVM可用最大内存的80% (即通过命令行传递的-Xmx值的80%)。注意，如果一个agent里面包含了多个channel，channel里面又包含了多个相同的events，那么这些events会被重复计算。将它设为 0 将会导致这个值强制设定为200GB的容量

JDBC Channel

配置项名称	默认值	描述
type	–	组件名称，必须为 `jdbc`
db.type	DERBY	数据库类型，必须为 DERBY.
driver.class	org.apache.derby.jdbc.EmbeddedDriver	JDBC 驱动类
driver.url	(constructed from other properties)	JDBC 连接路径 URL
db.username	“sa”	数据库用户
db.password	–	密码
connection.properties.file	–	JDBC 连接的配置文件
create.schema	true	如果为真，则如果库不存在，就会自动创建
create.index	true	创建索引以加快查找
create.foreignkey	true	是否允许创建外键
transaction.isolation	“READ_COMMITTED”	隔离级别 READ_UNCOMMITTED, READ_COMMITTED, SERIALIZABLE, REPEATABLE_READ
maximum.connections	10	运行连接数据库的最大连接数
maximum.capacity	0 (不限制)	channel中允许的最大event数
sysprop.*		数据库特殊配置
sysprop.user.home		嵌入式Derby数据库的存储路径

Kafka Channel

配置项名称	默认值	描述
type	–	组件名称，必须为 `org.apache.flume.channel.kafka.KafkaChannel`
brokerList	–	Kafka Broker列表，建议至少有两台用于实现高可用，格式为hostname:port，broker之间用‘，’隔开
zookeeperConnect	–	Kafka集群使用的ZooKeeper的URI 格式是‘，’分隔的主机名hostname:port。如果使用chroot，则在末尾添加一次。例如: zookeeper-1:2181,zookeeper-2:2182,zookeeper-3:2181/kafka
topic	flume-channel	Kafka topic
groupId	flume	channel用于在kafka注册的GroupID，多个channel必须使用相同的topic和group，以确保当一个agent失败时，另一个agent可以获得数据注意:相同GroupID但是没有channel的consummer将导致丢失
readSmallestOffset	false	当设置为true时，通道将从最老的事件开始读取主题中的所有数据，当为false时，它将只读取通道启动后写入的事件
Other Kafka Properties	–	这些属性用于配置通道使用的Kafka生产者和消费者。Kafka支持的任何属性都可以使用。惟一的要求是在属性名前面加上前缀 `kafka.`. 举个例子: kafka.producer.type

File Channel

配置项名称默认值	描述
type	–	组件名称，必须为 `file`.
checkpointDir	~/.flume/file-channel/checkpoint	checkpoint文件的存储目录
useDualCheckpoints	false	备份checkpoint文件，如果它为 `true`, `backupCheckpointDir` 必须被设置
backupCheckpointDir	–	用于备份的checkpoint目录，它必须不能与原checkpoint目录一样
dataDirs	~/.flume/file-channel/data	‘，’分隔的目录列表，用于存储日志文件。在不同的磁盘上使用多个目录可以提高filechannel的性能
transactionCapacity	10000	channel支持的最大事务数
checkpointInterval	30000	checkpoint之间的最大时间间隔
maxFileSize	2146435071	单个日志文件最大的字节数
minimumRequiredSpace	524288000	最少需要的空闲空间(以字节为单位)。为了避免数据损坏，当空闲空间低于此值时，filechannel将停止接受take/put请求
capacity	1000000	单个channel存储的最大容量
keep-alive	3	一个put操作执行的最大时间
checkpointOnClose	true	在关闭时是否创建检查点，如果设置为true，可以加速filechannel的后续启动。

Sinks 常用配置

HDFS Sink

Name	默认值	描述
channel	–
type	–	组件名称，必须为 `hdfs`
hdfs.path	–	HDFS 目录路径 (例如 hdfs://namenode/flume/webdata/)
hdfs.filePrefix	FlumeData	Flume创建的文件名的前缀
hdfs.fileSuffix	–	Flume创建的文件名的后缀 (例如 `.avro` - 注意：当前不会自动添加)
hdfs.inUsePrefix	–	当前正在写入的文件名的前缀
hdfs.inUseSuffix	`.tmp`	当前正在写入的文件名的后缀
hdfs.rollInterval	30	触发文件滚动要等待的秒数 (0 = 无需根据时间进行滚动)
hdfs.rollSize	1024	触发文件滚动的字节数大小 (0: 无需根据文件大小滚动)
hdfs.rollCount	10	触发文件滚动的event数量 (0 = 无需根据events进行滚动)
hdfs.idleTimeout	0	自动关闭文件的时间间隔(如果没有数据写入) (0 = 不自动关闭)
hdfs.batchSize	100	每次写入 HDFS前读取的events数量
hdfs.codeC	–	压缩成以下格式之一: gzip, bzip2, lzo, lzop, snappy
hdfs.fileType	SequenceFile	当前序列化格式，有以下三种： `SequenceFile`, `DataStream` or `CompressedStream` (1)DataStream 不能设置 codeC (2)CompressedStream 需要设置 hdfs.codeC
hdfs.maxOpenFiles	5000	允许同时打开文件的最大数量。如果超过这个数字，则关闭最旧的文件。
hdfs.minBlockReplicas	–	指定每个HDFS块的最小副本数。如果没有指定，它来自类路径中的默认Hadoop配置.
hdfs.writeFormat	–	writeFormat格式. 有以下两种： “Text” ， “Writable” (默认).
hdfs.callTimeout	10000	HDFS打开、写入、刷新、关闭操作允许的最大毫秒数。如果发生许多HDFS超时操作，则应增加此数值。
hdfs.threadsPoolSize	10	HDFS操作的线程池数量
hdfs.round	false	时间戳是否应该四舍五入 (如果为true, 时间戳会向下取时间)
hdfs.roundValue	1	四舍五入到它的最高倍数`hdfs.roundUnit`), 比当前时间更小
hdfs.roundUnit	second	四舍五入的数值 - `second`, `minute` or `hour`.

Hive sink

Name	默认值	描述
channel	–
type	–	组件名称，必须为 `hive`
hive.metastore	–	Hive metastore 的路径 (例如 thrift://a.b.com:9083 )
hive.database	–	Hive database
hive.table	–	Hive 表名
hive.partition	–	‘，’分隔分区值列表，标识要写入的分区。例如: 如果表的分区为 (continent: string, country :string, time : string) 那么 ‘Asia,India,2014-02-26-01-21’ 将会被解释为 continent=Asia,country=India,time=2014-02-26-01-21
batchSize	15000	单个Hive事务中能写入的最大event数量

Logger sink

配置项名称	默认值	描述
channel	–
type	–	组件名称，必须为 `logger`

Avro Sink

配置项名称	默认值	描述
channel	–
type	–	组件名称，必须为 `avro`.
hostname	–	需要绑定的主机或IP地址
port	–	监听的端口号
batch-size	100	一次性发送的最大events数量
connect-timeout	20000	允许第一次(连接)请求的时间(ms).

Thrift Sink

配置项名称	默认值	描述
channel	–
type	–	组件名称，必须为 `thrift`.
hostname	–	需要绑定的主机或IP地址
port	–	监听的端口号
batch-size	100	一次性发送的最大events数量
connect-timeout	20000	允许第一次(连接)请求的时间(ms).

HBase Sink

配置项名称	默认值	描述
channel	–
type	–	组件名称，必须为 `hbase`
table	–	需要写入到Hbase的表名
columnFamily	–	Hbase的列族
zookeeperQuorum	–	quorum 配置. 这个配置的值为 `hbase.zookeeper.quorum`它在 hbase-site.xml文件中

Flume 常用配置项的更多相关文章

webpack基础+webpack配置文件常用配置项介绍+webpack-dev-server
一.webpack基础 1.在项目中生成package.json:在项目根目录中输入npm init,根据提示输入相应信息.(也可以不生成package.json文件,但是package.json是很 ...
hadoop 常用配置项【转】
hadoop 常用配置项[转] core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义 ...
Intellij idea 系列教程之常用配置项
Intellij idea 系列教程之常用配置项 Intellij idea 系列教程目录(https://www.cnblogs.com/binarylei/p/10347600.html) Lan ...
webpack常用配置项配置文件介绍
一.webpack基础 1.在项目中生成package.json:在项目根目录中输入npm init,根据提示输入相应信息.(也可以不生成package.json文件,但是package.json是很 ...
Eureka注册中心高可用及常用配置项
一.前言前面已经简单的介绍了 Eureka 注册中心的使用以及查看.下面将继续进行 Eureka 的说明以及应用. 二.Eureka 的高可用搭建在实际生产项目中,为了保证服务的可用性,连续性,一 ...
Nuxt.js学习(二) --- Nuxt目录结构详解、Nuxt常用配置项、Nuxt路由配置和参数传递
[TOC] 1.Nuxt目录结构详解 Nuxt项目文件目录结构 |-- .nuxt // Nuxt自动生成,临时的用于编辑的文件,build |-- assets // 用于组织未编译的静态资源入LE ...
Vue实例中的常用配置项
创建Vue实例时,使用 new Vue ({//配置项}) 或者组件定义中 export default {//配置项},所有的Vue组件都是Vue实例,并且接受相同的选项对象(一些根实例特有的选项 ...
Jmeter系列（5）- jmeter.properties常用配置项讲解
如果你想从头学习Jmeter,可以看看这个系列的文章哦 https://www.cnblogs.com/poloyy/category/1746599.html jmeter.properties 所 ...
hadoop 常用配置项
core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI ...

随机推荐

[Fundamental of Power Electronics]-PART I-2.稳态变换器原理分析-2.1 引言
2.1 引言在上一章中,介绍了降压变换器作为降低直流电压的一种方法,其仅使用非耗散开关,电感器和电容器.开关状态变换产生一个矩形波形\(v_{s}(t)\),如图2.1所示.当开关位于位置1时,该电 ...
Dynamics CRM调用选择用户弹窗
在开发Dynamics CRM的部分场景时我们会遇到一些需要去锁定用户的操作,所以就需要使用Javascript把用户的弹窗弹出来.具体做法如下我们需要拼接一个弹出选择记录框的url Url格式:C ...
（十六）Struts2的标签库
一.简介 Struts2的标签库使用OGNL为基础,大大简化了数据的输出,也提供了大量标签来生成页面效果,功能非常强大. 在早期的web应用开发中,jsp页面主要使用jsp脚本来控制输出.jsp页面嵌 ...
docker搭建简单mysql主从
关于MySQL主从模式,如果我们直接在本机上搭建的话,是没法搭建的,只能借助于虚拟机,但有的时候我们又需要搭建一个主从集群,以便于进行一些功能性的测试.这个时候我们就可以尝试使用docker,借助于d ...
记canvas画笔笔迹的多次优化过程
我们的项目是面向学校老师的教学软件,所以肯定少不了互动白板的功能,而这个里面的画笔功能是由我来开发的,下面介绍这个过程中遇到的问题以及解决方法. 首先给大家明确下由于软件中的画布可以自由移动,会超出屏 ...
OO第四单元总结与课程总结
OO第四单元总结与课程总结第四单元作业架构设计总体分析:本单元作业的需求集中于对UML类图进行查询.对于查询操作来说自然的想法是提前预见到需要查询的内容,在一开始就采用适当的数据结构将必要的信息进 ...
[Java] 数据类型, 变量, 运算符, 表达式
title: [Java] 变量与表达式你已经学会输出 Hello world 了, 那么现在, 我们来学习关于变量的知识基本数据类型在 Java 中, 有 8 种基本的数据类型: 名称描述 ...
02- TCP/IP 协议族
TCP/IP概述 TCP/IP协议之间的关系常用的协议 ping命令 tracert命令常用协议
Mysql Char 和 Varchar的区别
CHAR和VARCHAR都是字符串类型,它们的具体区别为: 长度大小区别: CHAR(M)定义的列的长度为固定的,M取值可以为0-255之间: VARCHAR(M)定义的列的长度为可变长,M取值可以为 ...
POJ2391 Floyd+离散化+二分+DINIC
题意: 有n个猪圈,每个猪圈里面都有一定数量的猪(可能大于当前猪圈的数量),每个猪圈都有自己的容量,猪圈与猪圈之间给出了距离,然后突然下雨了,问多久之后所有的猪都能进圈. 思路: ...

Flume 常用配置项

Source 常见配置项

Avro Source

Thrift Source

Exec Source

Kafka Source

Netcat Source

Sequence Generator Source

Http Source

Custom Source

Channels 常用配置项

Memory Channel

JDBC Channel

Kafka Channel

File Channel

Sinks 常用配置

HDFS Sink

Hive sink

Logger sink

Avro Sink

Thrift Sink

HBase Sink

Flume 常用配置项的更多相关文章

随机推荐

热门专题