Flume 常用配置项
注:以下配置项均为常见配置项,查询详细配置项可以访问 flume 官网
Source 常见配置项
Avro Source
配置项名称 | 默认值 | 描述 |
---|---|---|
Channel | – | |
type | – | 组件类型名称,必须为avro |
bind | – | 要监听的主机名或IP地址 |
port | – | 要绑定的端口号 |
threads | – | 产生的最大工作线程数 |
ipFilterRules | – | 使用此配置定义N个netty ipFilter模式规则。 |
Thrift Source
配置项名称 | 默认值 | 描述 |
---|---|---|
Channel | – | |
type | – | 组件类型名称,必须为Thrift |
bind | – | 要监听的主机名或IP地址 |
port | – | 要绑定的端口号 |
threads | – | 产生的最大工作线程数 |
ipFilterRules | – | 使用此配置定义N个netty ipFilter模式规则。 |
Exec Source
配置项名称 | 默认值 | 描述 |
---|---|---|
Channel | – | |
type | – | 组件名称,必须为 exec |
command | – | 需要执行的指令 |
restartThrottle | 10000 | 重启之前需要等待的时间(10秒) |
restart | false | cmd挂掉是否应该自动重启 |
batchSize | 20 | 每次可以读取的行数 |
batchTimeout | 3000 | 这批数据必须处理完的时间 |
Kafka Source
配置项名称 | 默认值 | 描述 |
---|---|---|
channels | – | |
type | – | 组件名称,必须为org.apache.flume.source.kafka,KafkaSource |
zookeeperConnect | – | Zookeeper的地址 |
groupId | flume | consumer group的唯一标识,在多个source或多个agent中设置相同的ID表示它们属于同一个consumer group |
topic | – | Kafka的Topic,只能是一个 |
batchSize | 1000 | 一个批次中最大能取到的消息数 |
Netcat Source
配置项名称 | 默认值 | 描述 |
---|---|---|
channels | – | |
type | – | 组件名称,必须为 netcat |
bind | – | 需要绑定的主机 |
port | – | 需要绑定的端口号 |
max-line-length | 512 | 每条消息的最大字节数 |
ack-every-event | true | 为每条成功接收的消息回复'OK' |
Sequence Generator Source
配置项名称 | 默认值 | 描述 |
---|---|---|
channels | – | |
type | – | 组件名称,必须为 seq |
Http Source
配置项名称 | 默认值 | 描述 |
---|---|---|
type | 组件名称,必须为http |
|
port | – | 需要绑定的端口 |
bind | 0.0.0.0 | 需要监听的地址 |
handler | org.apache.flume.source.http.JSONHandler |
handler类的完整名称 |
handler.* | – | handler的参数 |
Custom Source
配置项名称 | 默认 | 描述 |
---|---|---|
channels | – | |
type | – | 组件名称,为用户自定义的完整类名称 |
Channels 常用配置项
Memory Channel
配置项名称 | 默认值 | 描述 |
---|---|---|
type | – | 组件名称,必须为 memory |
capacity | 100 | channel最大能存储的event数量 |
transactionCapacity | 100 | 每次事务中能从source中拉取或下沉到sink的最大event数量 |
keep-alive | 3 | 添加 |
byteCapacityBufferPercentage | 20 | 定义byteCapacityBuffer 的占比,它与 byteCapacity之和为100%,byteCapacity见下栏 |
byteCapacity | 在这个channel中允许存放的最大字节数 这个字节数只计算event body,这也是需要提供 byteCapacityBufferPercentage 配置参数的原因。 默认为JVM可用最大内存的80% (即通过命令行传递的-Xmx值的80%)。 注意,如果一个agent里面包含了多个channel,channel里面又包含了多个相同的events,那么这些events会被重复计算。 将它设为 0 将会导致这个值强制设定为200GB的容量 |
JDBC Channel
配置项名称 | 默认值 | 描述 |
---|---|---|
type | – | 组件名称,必须为 jdbc |
db.type | DERBY | 数据库类型,必须为 DERBY. |
driver.class | org.apache.derby.jdbc.EmbeddedDriver | JDBC 驱动类 |
driver.url | (constructed from other properties) | JDBC 连接路径 URL |
db.username | “sa” | 数据库用户 |
db.password | – | 密码 |
connection.properties.file | – | JDBC 连接的配置文件 |
create.schema | true | 如果为真,则如果库不存在,就会自动创建 |
create.index | true | 创建索引以加快查找 |
create.foreignkey | true | 是否允许创建外键 |
transaction.isolation | “READ_COMMITTED” | 隔离级别 READ_UNCOMMITTED, READ_COMMITTED, SERIALIZABLE, REPEATABLE_READ |
maximum.connections | 10 | 运行连接数据库的最大连接数 |
maximum.capacity | 0 (不限制) | channel中允许的最大event数 |
sysprop.* | 数据库特殊配置 | |
sysprop.user.home | 嵌入式Derby数据库的存储路径 |
Kafka Channel
配置项名称 | 默认值 | 描述 |
---|---|---|
type | – | 组件名称,必须为 org.apache.flume.channel.kafka.KafkaChannel |
brokerList | – | Kafka Broker列表,建议至少有两台用于实现高可用,格式为hostname:port,broker之间用‘,’隔开 |
zookeeperConnect | – | Kafka集群使用的ZooKeeper的URI 格式是‘,’分隔的主机名hostname:port。如果使用chroot,则在末尾添加一次。 例如: zookeeper-1:2181,zookeeper-2:2182,zookeeper-3:2181/kafka |
topic | flume-channel | Kafka topic |
groupId | flume | channel用于在kafka注册的GroupID,多个channel必须使用相同的topic和group,以确保当一个agent失败时,另一个agent可以获得数据 注意:相同GroupID但是没有channel的consummer将导致丢失 |
readSmallestOffset | false | 当设置为true时,通道将从最老的事件开始读取主题中的所有数据,当为false时,它将只读取通道启动后写入的事件 |
Other Kafka Properties | – | 这些属性用于配置通道使用的Kafka生产者和消费者。Kafka支持的任何属性都可以使用。惟一的要求是在属性名前面加上前缀 kafka. . 举个例子: kafka.producer.type |
File Channel
配置项名称 默认值 | 描述 | |
---|---|---|
type | – | 组件名称,必须为 file . |
checkpointDir | ~/.flume/file-channel/checkpoint | checkpoint文件的存储目录 |
useDualCheckpoints | false | 备份checkpoint文件,如果它为 true , backupCheckpointDir 必须 被设置 |
backupCheckpointDir | – | 用于备份的checkpoint目录,它 必须不能 与原checkpoint目录一样 |
dataDirs | ~/.flume/file-channel/data | ‘,’分隔的目录列表,用于存储日志文件。在不同的磁盘上使用多个目录可以提高filechannel的性能 |
transactionCapacity | 10000 | channel支持的最大事务数 |
checkpointInterval | 30000 | checkpoint之间的最大时间间隔 |
maxFileSize | 2146435071 | 单个日志文件最大的字节数 |
minimumRequiredSpace | 524288000 | 最少需要的空闲空间(以字节为单位)。为了避免数据损坏,当空闲空间低于此值时,filechannel将停止接受take/put请求 |
capacity | 1000000 | 单个channel存储的最大容量 |
keep-alive | 3 | 一个put操作执行的最大时间 |
checkpointOnClose | true | 在关闭时是否创建检查点,如果设置为true,可以加速filechannel的后续启动。 |
Sinks 常用配置
HDFS Sink
Name | 默认值 | 描述 |
---|---|---|
channel | – | |
type | – | 组件名称,必须为 hdfs |
hdfs.path | – | HDFS 目录路径 (例如 hdfs://namenode/flume/webdata/) |
hdfs.filePrefix | FlumeData | Flume创建的文件名的前缀 |
hdfs.fileSuffix | – | Flume创建的文件名的后缀 (例如 .avro - 注意:当前不会自动添加) |
hdfs.inUsePrefix | – | 当前正在写入的文件名的前缀 |
hdfs.inUseSuffix | .tmp |
当前正在写入的文件名的后缀 |
hdfs.rollInterval | 30 | 触发文件滚动要等待的秒数 (0 = 无需根据时间进行滚动) |
hdfs.rollSize | 1024 | 触发文件滚动的字节数大小 (0: 无需根据文件大小滚动) |
hdfs.rollCount | 10 | 触发文件滚动的event数量 (0 = 无需根据events进行滚动) |
hdfs.idleTimeout | 0 | 自动关闭文件的时间间隔(如果没有数据写入) (0 = 不自动关闭) |
hdfs.batchSize | 100 | 每次写入 HDFS前读取的events数量 |
hdfs.codeC | – | 压缩成以下格式之一: gzip, bzip2, lzo, lzop, snappy |
hdfs.fileType | SequenceFile | 当前序列化格式,有以下三种: SequenceFile , DataStream or CompressedStream (1)DataStream 不能设置 codeC (2)CompressedStream 需要设置 hdfs.codeC |
hdfs.maxOpenFiles | 5000 | 允许同时打开文件的最大数量。如果超过这个数字,则关闭最旧的文件。 |
hdfs.minBlockReplicas | – | 指定每个HDFS块的最小副本数。如果没有指定,它来自类路径中的默认Hadoop配置. |
hdfs.writeFormat | – | writeFormat格式. 有以下两种: “Text” , “Writable” (默认). |
hdfs.callTimeout | 10000 | HDFS打开、写入、刷新、关闭操作允许的最大毫秒数。 如果发生许多HDFS超时操作,则应增加此数值。 |
hdfs.threadsPoolSize | 10 | HDFS操作的线程池数量 |
hdfs.round | false | 时间戳是否应该四舍五入 (如果为true, 时间戳会向下取时间) |
hdfs.roundValue | 1 | 四舍五入到它的最高倍数hdfs.roundUnit ), 比当前时间更小 |
hdfs.roundUnit | second | 四舍五入的数值 - second , minute or hour . |
Hive sink
Name | 默认值 | 描述 |
---|---|---|
channel | – | |
type | – | 组件名称,必须为 hive |
hive.metastore | – | Hive metastore 的路径 (例如 thrift://a.b.com:9083 ) |
hive.database | – | Hive database |
hive.table | – | Hive 表名 |
hive.partition | – | ‘,’分隔分区值列表,标识要写入的分区。 例如: 如果表的分区为 (continent: string, country :string, time : string) 那么 ‘Asia,India,2014-02-26-01-21’ 将会被解释为 continent=Asia,country=India,time=2014-02-26-01-21 |
batchSize | 15000 | 单个Hive事务中能写入的最大event数量 |
Logger sink
配置项名称 | 默认值 | 描述 |
---|---|---|
channel | – | |
type | – | 组件名称,必须为 logger |
Avro Sink
配置项名称 | 默认值 | 描述 |
---|---|---|
channel | – | |
type | – | 组件名称,必须为 avro . |
hostname | – | 需要绑定的主机或IP地址 |
port | – | 监听的端口号 |
batch-size | 100 | 一次性发送的最大events数量 |
connect-timeout | 20000 | 允许第一次(连接)请求的时间(ms). |
Thrift Sink
配置项名称 | 默认值 | 描述 |
---|---|---|
channel | – | |
type | – | 组件名称,必须为 thrift . |
hostname | – | 需要绑定的主机或IP地址 |
port | – | 监听的端口号 |
batch-size | 100 | 一次性发送的最大events数量 |
connect-timeout | 20000 | 允许第一次(连接)请求的时间(ms). |
HBase Sink
配置项名称 | 默认值 | 描述 |
---|---|---|
channel | – | |
type | – | 组件名称,必须为 hbase |
table | – | 需要写入到Hbase的表名 |
columnFamily | – | Hbase的列族 |
zookeeperQuorum | – | quorum 配置. 这个配置的值为 hbase.zookeeper.quorum 它在 hbase-site.xml文件中 |
Flume 常用配置项的更多相关文章
- webpack基础+webpack配置文件常用配置项介绍+webpack-dev-server
一.webpack基础 1.在项目中生成package.json:在项目根目录中输入npm init,根据提示输入相应信息.(也可以不生成package.json文件,但是package.json是很 ...
- hadoop 常用配置项【转】
hadoop 常用配置项[转] core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义 ...
- Intellij idea 系列教程之常用配置项
Intellij idea 系列教程之常用配置项 Intellij idea 系列教程目录(https://www.cnblogs.com/binarylei/p/10347600.html) Lan ...
- webpack常用配置项配置文件介绍
一.webpack基础 1.在项目中生成package.json:在项目根目录中输入npm init,根据提示输入相应信息.(也可以不生成package.json文件,但是package.json是很 ...
- Eureka注册中心高可用及常用配置项
一.前言 前面已经简单的介绍了 Eureka 注册中心的使用以及查看.下面将继续进行 Eureka 的说明以及应用. 二.Eureka 的高可用搭建 在实际生产项目中,为了保证服务的可用性,连续性,一 ...
- Nuxt.js学习(二) --- Nuxt目录结构详解、Nuxt常用配置项、Nuxt路由配置和参数传递
[TOC] 1.Nuxt目录结构详解 Nuxt项目文件目录结构 |-- .nuxt // Nuxt自动生成,临时的用于编辑的文件,build |-- assets // 用于组织未编译的静态资源入LE ...
- Vue实例 中的常用配置项
创建Vue实例时,使用 new Vue ({//配置项}) 或者 组件定义中 export default {//配置项},所有的Vue组件都是Vue实例,并且接受相同的选项对象(一些根实例特有的选项 ...
- Jmeter系列(5)- jmeter.properties常用配置项讲解
如果你想从头学习Jmeter,可以看看这个系列的文章哦 https://www.cnblogs.com/poloyy/category/1746599.html jmeter.properties 所 ...
- hadoop 常用配置项
core-site.xml name value Description fs.default.name hdfs://hadoopmaster:9000 定义HadoopMaster的URI ...
随机推荐
- [Fundamental of Power Electronics]-PART I-2.稳态变换器原理分析-2.1 引言
2.1 引言 在上一章中,介绍了降压变换器作为降低直流电压的一种方法,其仅使用非耗散开关,电感器和电容器.开关状态变换产生一个矩形波形\(v_{s}(t)\),如图2.1所示.当开关位于位置1时,该电 ...
- Dynamics CRM调用选择用户弹窗
在开发Dynamics CRM的部分场景时我们会遇到一些需要去锁定用户的操作,所以就需要使用Javascript把用户的弹窗弹出来.具体做法如下 我们需要拼接一个弹出选择记录框的url Url格式:C ...
- (十六)Struts2的标签库
一.简介 Struts2的标签库使用OGNL为基础,大大简化了数据的输出,也提供了大量标签来生成页面效果,功能非常强大. 在早期的web应用开发中,jsp页面主要使用jsp脚本来控制输出.jsp页面嵌 ...
- docker搭建简单mysql主从
关于MySQL主从模式,如果我们直接在本机上搭建的话,是没法搭建的,只能借助于虚拟机,但有的时候我们又需要搭建一个主从集群,以便于进行一些功能性的测试.这个时候我们就可以尝试使用docker,借助于d ...
- 记canvas画笔笔迹的多次优化过程
我们的项目是面向学校老师的教学软件,所以肯定少不了互动白板的功能,而这个里面的画笔功能是由我来开发的,下面介绍这个过程中遇到的问题以及解决方法. 首先给大家明确下由于软件中的画布可以自由移动,会超出屏 ...
- OO第四单元总结与课程总结
OO第四单元总结与课程总结 第四单元作业架构设计 总体分析:本单元作业的需求集中于对UML类图进行查询.对于查询操作来说自然的想法是提前预见到需要查询的内容,在一开始就采用适当的数据结构将必要的信息进 ...
- [Java] 数据类型, 变量, 运算符, 表达式
title: [Java] 变量与表达式 你已经学会输出 Hello world 了, 那么现在, 我们来学习关于变量的知识 基本数据类型 在 Java 中, 有 8 种基本的数据类型: 名称 描述 ...
- 02- TCP/IP 协议族
TCP/IP概述 TCP/IP协议之间的关系 常用的协议 ping命令 tracert命令 常用协议
- Mysql Char 和 Varchar的区别
CHAR和VARCHAR都是字符串类型,它们的具体区别为: 长度大小区别: CHAR(M)定义的列的长度为固定的,M取值可以为0-255之间: VARCHAR(M)定义的列的长度为可变长,M取值可以为 ...
- POJ2391 Floyd+离散化+二分+DINIC
题意: 有n个猪圈,每个猪圈里面都有一定数量的猪(可能大于当前猪圈的数量),每个猪圈都有自己的容量,猪圈与猪圈之间给出了距离,然后突然下雨了,问多久之后所有的猪都能进圈. 思路: ...