HDFS Sink使用技巧

lishouguang 2024-10-14 23:58:50 原文

1、文件滚动策略

在HDFS Sink的文件滚动就是文件生成，即关闭当前文件，创建新文件。它的滚动策略由以下几个属性控制：

hdfs.rollInterval

基于时间间隔来进行文件滚动，默认是30，即每隔30秒滚动一个文件。0就是不使用这个策略。

hdfs.rollSize

基于文件大小进行文件滚动，默认是1024，即当文件大于1024个字节时，关闭当前文件，创建新的文件。0就是不使用这个策略。

hdfs.rollCount

基于event数量进行文件滚动。默认是10，即event个数达到10时进行文件滚动。0就是不使用这个策略。

hdfs.idleTimeout

闲置N秒后，关闭当前文件（去掉.tmp后缀）。

以上这些策略可以同时启用，比如下面的配置的策略是：每大约50K一个文件，闲置10秒则关闭当前文件（.tmp）

1

2

3

4

5

6

7

8

a1.sinks=k1

...

a1.sinks.k1.type=hdfs

a1.sinks.k1.hdfs.path=hdfs://vm1:8020/flume/

a1.sinks.k1.hdfs.rollInterval=0

a1.sinks.k1.hdfs.rollSize=50000

a1.sinks.k1.hdfs.rollCount=0

a1.sinks.k1.hdfs.idleTimeout=10

2、文件名策略

文件路径或文件名可以使用占位符，官方提供的占位符如下：

Alias	Description
%{host}	Substitute value of event header named “host”. Arbitrary header names are supported.
%t	Unix time in milliseconds
%a	locale’s short weekday name (Mon, Tue, ...)
%A	locale’s full weekday name (Monday, Tuesday, ...)
%b	locale’s short month name (Jan, Feb, ...)
%B	locale’s long month name (January, February, ...)
%c	locale’s date and time (Thu Mar 3 23:05:25 2005)
%d	day of month (01)
%D	date; same as %m/%d/%y
%H	hour (00..23)
%I	hour (01..12)
%j	day of year (001..366)
%k	hour ( 0..23)
%m	month (01..12)
%M	minute (00..59)
%p	locale’s equivalent of am or pm
%s	seconds since 1970-01-01 00:00:00 UTC
%S	second (00..59)
%y	last two digits of year (00..99)
%Y	year (2010)
%z	+hhmm numeric timezone (for example, -0400)

想要使用跟时间、日期有关的占位符，需要有timestamp拦截器

想要使用host属性，需要有host拦截器

如果有自定义拦截器，也可以使用自定义属性。

1）文件的命名

hdfs.filePrefix 文件前缀，默认是FlumeData

hdfs.fileSuffix 文件后缀，默认没有。

例子如下，文件以分钟命名：

1

2

3

4

5

a1.sinks=k1

...

a1.sinks.k1.type=hdfs

...

a1.sinks.k1.hdfs.filePrefix=%M.log

2）文件父路径的命名：

例子如下，/host地址/年-月-日/：

1

2

3

4

5

a1.sinks=k1

...

a1.sinks.k1.type=hdfs

...

a1.sinks.k1.hdfs.path=hdfs://vm1:8020/flume/%{host}/%Y-%m-%d

来自为知笔记(Wiz)

HDFS Sink使用技巧的更多相关文章

[bigdata] 使用Flume hdfs sink， hdfs文件未关闭的问题
现象: 执行mapreduce任务时失败通过hadoop fsck -openforwrite命令查看发现有文件没有关闭. [root@com ~]# hadoop fsck -openforwri ...
修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能
Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解 ...
[ETL] Flume 理论与demo（Taildir Source & Hdfs Sink）
一.Flume简介 1. Flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据: ...
Flume中的HDFS Sink配置参数说明【转】
转:http://lxw1234.com/archives/2015/10/527.htm 关键字:flume.hdfs.sink.配置参数 Flume中的HDFS Sink应该是非常常用的,其中的配 ...
Hadoop实战-Flume之Hdfs Sink(十)
a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = ...
flume 中的 hdfs sink round 和roll
http://blog.csdn.net/kntao/article/details/49278239 http://flume.apache.org/FlumeUserGuide.html#exec ...
flume中sink到hdfs，文件系统频繁产生文件和出现乱码，文件滚动配置不起作用？
问题描述解决办法先把这个hdfs目录下的数据删除.并修改配置文件flume-conf.properties,重新采集. # Licensed to the Apache Software Fou ...
Spark2.x（五十五）：在spark structured streaming下sink file(parquet,csv等)，正常运行一段时间后：清理掉checkpoint，重新启动app，无法sink记录（file）到hdfs。
场景: 在spark structured streaming读取kafka上的topic,然后将统计结果写入到hdfs,hdfs保存目录按照month,day,hour进行分区: 1)程序放到spa ...
Hadoop生态圈-Flume的组件之自定义Sink
Hadoop生态圈-Flume的组件之自定义Sink 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要介绍sink相关的API使用两个小案例,想要了解更多关于API的小技 ...

随机推荐

python 变量进阶（理解）
变量进阶(理解) 目标变量的引用可变和不可变类型局部变量和全局变量 01. 变量的引用变量和数据都是保存在内存中的在 Python 中函数的参数传递以及返回值都是靠引 ...
spring boot 集成 Listener 的两种方式
1)@ServletComponentScan注解+@WebListener注解 2)@Bean注解+ServletListenerRegistrationBean类
【深入 MongoDB 开发】使用正确的姿势连接分片集群
MongoDB分片集群(Sharded Cluster)通过将数据分散存储到多个分片(Shard)上,来实现高可扩展性.实现分片集群时,MongoDB 引入 Config Server 来存储集群的元 ...
Git工具使用
GIT(分布式版本控制系统) Git是一款免费.开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目.Git的读音为/gɪt/. Git是一个开源的分布式版本控制系统,可以有效.高速的处理从 ...
Unity 多人网络连接
NetWorkServer.cs using UnityEngine; using System.Collections; public class NetWorkServer : MonoBehav ...
解决Android Studio 3.x版本的安装时没有SDK，运行时出现SDK tools错误
好久没更新了,最近手机上的闹钟APP没一个好用的,所以想自己写个. 那Android开发环境搭起来,注意先装好jdk. 1.安装Android Studio google的Android开发网站已经有 ...
开源网站流量统计系统Piwik源码分析——后台处理（二）
在第一篇文章中,重点介绍了脚本需要搜集的数据,而本篇主要介绍的是服务器端如何处理客户端发送过来的请求和参数. 一.设备信息检测通过分析User-Agent请求首部(如下图红线框出的部分),可以得到相 ...
#11 Python字典
前言前两节介绍了Python列表和字符串的相关用法,这两种数据类型都是有序的数据类型,所以它们可以通过索引来访问内部元素.本文将记录一种无序的数据类型——字典! 一.字典与列表和字符串的区别字典是 ...
[POI2004] SZN
Description 给定\(N(N\leq 10000)\)个点的树,要求用最少的路径覆盖树边.路径之间可以有交点,不能有交边.问最少需要几条路径以及在第一问的基础上最长的路径最短是多少? Sol ...
MONGODB（四）——DBObject与JavaBean转换
一.DBObject 转为 JavaBean /** * 将实体Bean对象转换成DBObject * */ public static <T> DBObject beanToDBObje ...